<?xml version="1.0" encoding="UTF-8"?>
<xml>
 <records>
  <record>
   <ref-type name="Journal Article">17</ref-type>
   <contributors>
    <authors>
     <author>Дрожащих Н В</author>
     <author>Ефимова Е В</author>
    </authors>
   </contributors>
   <titles>
    <title>ЛЕММАТИЗАЦИЯ МАЛОРЕСУРСНЫХ ЯЗЫКОВ В ДИАХРОНИЧЕСКОЙ ЛИНГВИСТИКЕ: ПРОБЛЕМЫ И РЕШЕНИЯ</title>
   </titles>
   <keywords>
    <keyword>low-resource historical languages</keyword>
    <keyword>викисловарь</keyword>
    <keyword>диахрония</keyword>
    <keyword>древнеанглийский язык</keyword>
    <keyword>лемматизатор</keyword>
    <keyword>лемматизация</keyword>
    <keyword>малоресурсные исторические языки</keyword>
    <keyword>язык программирования Python</keyword>
   </keywords>
   <dates>
    <year>2025</year>
    <pub-dates>
     <date>2025-12-15</date>
    </pub-dates>
   </dates>
   <doi>10.33910/1992-6464-2025-217-302-311</doi>
   <journal>Известия Российского государственного педагогического университета им. А.И. Герцена</journal>
   <abstract>Введение . Статья посвящена проблематике лемматизации малоресурсных исторических языков в прикладной диахронической лингвистике. Нейросетевой (neural model) подход, используемый для лемматизации современных языков, для древних языков не применим из-за их морфологической сложности и ограниченности корпусных данных. Наиболее распространенным подходом к лемматизации малоресурсных исторических языков является словарно-ориентированный (dictionary-based) подход. В настоящее время наиболее доступный инструмент для лемматизации больших корпусов древнеанглийских текстов - модуль библиотеки Classical Language Toolkit (CLTK) - не позволяет осуществить корректную лемматизацию в силу ограниченности словаря лемм данной библиотеки. Цель исследования - компиляция словаря лемм древнеанглийского языка на основе данных краудсорсингового веб-ресурса - викисловаря (wiktionary) - для решения задач автоматической лемматизации. Материалы и методы . Исследование проводится на материале корпуса аннотированных текстов-трибанков древнеанглийского языка (IX-XI вв.) и датасетов открытых лексикографических ресурсов (словарь лемм библиотеки CLTK и древнеанглийский сегмент викисловаря). Методологическая база исследования сочетает технологии корпусной и компьютерной лингвистики и электронной лексикографии для создания оригинального цифрового ресурса. Исследование включает три этапа: компиляция словаря древнеанглийских лемм, лемматизация древнеанглийских текстов, оценка точности (precision) и полноты (recall) словаря и качества лемматизации текста. Результаты исследования . В ходе анализа лемматизаторов малоресурсных языков было выявлено, что оптимальным является подход с применением словаря лемм. Традиционные лексикографические источники, в частности древнеанглийский словарь Босворта-Толлера, содержат обширные словарные данные, однако эти данные не представлены в машиночитаемом формате. В качестве альтернативы мы предлагаем использовать викисловарь - открытый краудсорсинговый лексикографический ресурс, характеризующийся широким охватом и подробным описанием лексических единиц. В рамках исследования разработан алгоритм компиляции словаря лемм путем интеграции датасетов библиотеки CLTK и викисловаря. Полученный словарь лемм (11 451 уникальная лемма, 80 778 словоформ) показывает высокую степень точности и полноты, что подтверждает его применимость для лемматизации древнеанглийских текстов. Заключение . По итогам исследования создан оригинальный цифровой ресурс - словарь лемм, а также программный код для автоматической лемматизации древнеанглийского языка. Разработанный нами код и полученный словарь лемм представляют собой эффективное решение задачи лемматизации малоресурсного исторического языка.</abstract>
   <urls>
    <web-urls>
     <url>https://rep.herzen.spb.ru/publication/20968</url>
    </web-urls>
   </urls>
  </record>
 </records>
</xml>
