NAMED ENTITY RECOGNITION FOR KAZAKH LANGUAGE USING CRF AND RANDOM FOREST MODELS: A COMPARATIVE STUDY

Авторы

  • G. Abdikalyk Международный университет Астана
  • A. Mukanova Международный университет Астана
  • A. Nazyrova Международный университет Астана

DOI:

https://doi.org/10.32014/2023.2518-1726.200

Ключевые слова:

Распознавание именованных объектов (NER), казахский язык, условные случайные поля (CRF), случайный лес, сравнительное исследование

Аннотация

Aннотация. Деятельность по распознаванию и категоризации именованных объектов в тексте называется распознаванием именованных объектов (NER) и имеет большое значение для обработки естественного языка. Однако из-за сложности морфологии и скудости лингвистических ресурсов распознавание именованных объектов в языках с ограниченными ресурсами, таких как казахский, сопряжено с определенными трудностями. В данной научной работе проведено сравнение эффективности двух известных моделей машинного обучения - условных случайных полей (CRF) и случайного леса - для NER на казахском языке.

В работе рассматриваются стратегии подбора признаков с учетом морфологической сложности казахского языка и используется эталонный набор данных, созданный специально для NER казахского языка. В то время как модели Random Forest управляют высокоразмерными пространствами признаков и сложными взаимодействиями в данных, модели CRF отражают последовательные зависимости и контекстную информацию.

Эффективность моделей CRF и Random Forest для казахского NER подтверждается экспериментальными результатами. Однако на эффективность работы этих моделей влияет нехватка помеченных данных. Будущие направления исследований включают расширение аннотированных наборов данных за счет сотрудничества с лингвистами и носителями языка для решения этой проблемы.

В исследовании также подчеркивается, насколько важно учитывать в NER сложную морфологию казахского языка. Среди морфологических качеств, которые учитывают модели CRF и Random Forest, можно выделить наличие в словах стеблей и тегов частей речи, что улучшает распознавание именованных Именованных объектов в различных склонениях и вариантах.

Сравнительный анализ проливает свет на преимущества и недостатки моделей Random Forest и CRF для казахстанской NER. В то время как модели Random Forest могут управлять сложными связями и взаимодействием признаков, модели CRF лучше справляются с выявлением последовательных зависимостей и использованием контекстной информации. Специфические потребности и характеристики задачи NER определяют выбор модели.

В заключение следует отметить, что, предлагая информацию об эффективности моделей CRF и Random Forest, данное сравнительное исследование способствует развитию NER для казахского языка. Оно показывает ценность работы с морфологической сложностью, необходимость аннотированных данных и направляет дальнейшие исследования, направленные на совершенствование систем NER казахского языка.

Ключевые слова: Распознавание именованных объектов (NER), казахский язык, условные случайные поля (CRF), случайный лес, сравнительное исследование

Эта работа была финансово поддержана Комитетом науки Министерства науки и высшего образования Республики Казахстан (грант AP19577922, 2023-2025)

Биографии авторов

G. Abdikalyk, Международный университет Астана

Магистрант Международного университета Астана

A. Mukanova, Международный университет Астана

PhD, доцент Международного университета Астана

A. Nazyrova, Международный университет Астана

Cтарший преподаватель Международного университета Астана

 

Загрузки

Опубликован

2023-09-30

Как цитировать

Abdikalyk, G., Mukanova, A., & Nazyrova, A. (2023). NAMED ENTITY RECOGNITION FOR KAZAKH LANGUAGE USING CRF AND RANDOM FOREST MODELS: A COMPARATIVE STUDY. Известия НАН РК. Серия физико-математическая, (3), 7–17. https://doi.org/10.32014/2023.2518-1726.200