ЛЕММАТИЗАЦИЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ В ДИАХРОНИЧЕСКОЙ ЛИНГВИСТИКЕ: ПРОБЛЕМЫ И РЕШЕНИЯ

Дрожащих Н В Ефимова Е В ЛЕММАТИЗАЦИЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ В ДИАХРОНИЧЕСКОЙ ЛИНГВИСТИКЕ: ПРОБЛЕМЫ И РЕШЕНИЯ low-resource historical languages викисловарь диахрония древнеанглийский язык лемматизатор лемматизация малоресурсные исторические языки язык программирования Python 2025

2025-12-15

10.33910/1992-6464-2025-217-302-311 Известия Российского государственного педагогического университета им. А.И. Герцена Введение . Статья посвящена проблематике лемматизации малоресурсных исторических языков в прикладной диахронической лингвистике. Нейросетевой (neural model) подход, используемый для лемматизации современных языков, для древних языков не применим из-за их морфологической сложности и ограниченности корпусных данных. Наиболее распространенным подходом к лемматизации малоресурсных исторических языков является словарно-ориентированный (dictionary-based) подход. В настоящее время наиболее доступный инструмент для лемматизации больших корпусов древнеанглийских текстов - модуль библиотеки Classical Language Toolkit (CLTK) - не позволяет осуществить корректную лемматизацию в силу ограниченности словаря лемм данной библиотеки. Цель исследования - компиляция словаря лемм древнеанглийского языка на основе данных краудсорсингового веб-ресурса - викисловаря (wiktionary) - для решения задач автоматической лемматизации. Материалы и методы . Исследование проводится на материале корпуса аннотированных текстов-трибанков древнеанглийского языка (IX-XI вв.) и датасетов открытых лексикографических ресурсов (словарь лемм библиотеки CLTK и древнеанглийский сегмент викисловаря). Методологическая база исследования сочетает технологии корпусной и компьютерной лингвистики и электронной лексикографии для создания оригинального цифрового ресурса. Исследование включает три этапа: компиляция словаря древнеанглийских лемм, лемматизация древнеанглийских текстов, оценка точности (precision) и полноты (recall) словаря и качества лемматизации текста. Результаты исследования . В ходе анализа лемматизаторов малоресурсных языков было выявлено, что оптимальным является подход с применением словаря лемм. Традиционные лексикографические источники, в частности древнеанглийский словарь Босворта-Толлера, содержат обширные словарные данные, однако эти данные не представлены в машиночитаемом формате. В качестве альтернативы мы предлагаем использовать викисловарь - открытый краудсорсинговый лексикографический ресурс, характеризующийся широким охватом и подробным описанием лексических единиц. В рамках исследования разработан алгоритм компиляции словаря лемм путем интеграции датасетов библиотеки CLTK и викисловаря. Полученный словарь лемм (11 451 уникальная лемма, 80 778 словоформ) показывает высокую степень точности и полноты, что подтверждает его применимость для лемматизации древнеанглийских текстов. Заключение . По итогам исследования создан оригинальный цифровой ресурс - словарь лемм, а также программный код для автоматической лемматизации древнеанглийского языка. Разработанный нами код и полученный словарь лемм представляют собой эффективное решение задачи лемматизации малоресурсного исторического языка.

https://rgpu.elpub.ru/publication/20968