Учёные создали поисковую систему по старославянским рукописям на основе ИИ

Специалисты из НИЯУ МИФИ и Института русского языка им. В.В. Виноградова создали программный комплекс, позволяющий производить поиск по текстам, созданным на рукописном старославянском языке. Решение основано на алгоритмах искусственного интеллекта .

Как рассказал руководитель проекта, доцент кафедры кибернетики НИЯУ МИФИ Дмитрий Демидов, для работы с текстами создан сетевой ресурс «Рукописное наследие Древней Руси». Запросы на ресурсе оформляются как в обычных интернет‑поисковиках. В поисковую базу включены оцифрованные рукописи из российских библиотек и музеев. На текущий момент база состоит из 245 миней.

Минеи представляют собой повсеместно распространённый вид древнерусских книг. В этих книгах повторяются одни и те же сюжеты, однако изучение и сравнение похожих текстов даст возможность понять, при каких обстоятельствах происходили изменения в нашем языке, культуре и мировосприятии. Например, можно увидеть, как по‑разному трактуется одна и та же история в разные эпохи. Или как изменяется значение слов с течением времени. В каждом храме по одной такой книге на каждый месяц и несколько годовых миней. Объём этих книг составляет 500 страниц.

По словам учёных, обработка древних текстов состоит из трёх процессов. Первым идёт сегментирование страницы с вычленением отдельных элементов и символов. Вторым идёт классификация объектов и обучение нейросети. При обучении нейросети возникает ряд трудностей. Часть из них связана с различием в начертании одинаковых знаков в разных рукописях, а часть — с особенностями морфологии и синтаксиса старославянского языка.

По словам Дмитрия Демидова, доходит до 150 вариантов одной буквы, потому что несмотря на принятые каноны и шрифты (устав и полуустав), каждый писец вносил в их написание свои стилистические особенности. Кроме того, старинный алфавит включал 46 букв вместо 33 современных. Вообще древнерусское письмо характеризуется наличием сокращений, надстрочных элементов, отсутствием отступов между словами и знаков препинания, объяснил учёный.

Учёные наращивают точность распознавания рукописей, что включает в себя снижение ошибок сегментации и классификации. Оцифрованные древние документы, размещённые на доступном интернет‑ресурсе, дают возможность исследователям проверить корректность распознавания и в случае ошибки и сообщить об этом разработчикам.

Алексей Овчаренко

Доцент кафедры русского языка и лингвокультурологии Института русского языка Российского университета Дружбы народов имени П. Лумумбы

«Славянские минеи как минимум дважды подверглись масштабному редактированию — в связи с распространением Иерусалимского устава в XIV веке и в результате Никоновской книжной справы в XVII веке. Если можно проследить по рукописным памятникам эволюцию языка и отделить написанное древними авторами от поздних цитат, это позволит глубже понять отечественную историю».

Доцент кафедры русского языка и лингвокультурологии Института русского языка (ИРЯ) Российского университета Дружбы народов имени П. Лумумбы Алексей Овчаренко рассказал, что алгоритмы машинного обучения основаны на вероятностях. Поэтому распознавание символов старославянского языка на начальном этапе должно проверяться экспертами. В дальнейшем искусственному интеллекту можно предоставить большую свободу.

Сейчас поисковый интерфейс созданного сервиса позволяет вводить запросы на древнерусском языке отдельными словами и целыми фразами. Для удобства пользователей разработчики внедрили онлайн‑клавиатуру со старославянскими символами.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"