Переводчик стал качественнее справляться с длинными и сложными текстами. Благодаря дообучению он лучше определяет взаимосвязи внутри предложений и между ними. Кроме того, выросло качество перевода статей узконаправленной тематики. Например, сервис теперь поймёт по контексту, что речь идёт о языке программирования или фондовом индексе, и оставит их названия без перевода.
Яндекс использует технологию машинного перевода на основе нейросетей с 2018 года: есть даже статья на Хабре в нашем блоге. Нейросеть в Переводчике обучается на парах текстов — оригиналах и их переводе на другой язык. Так она учится видеть взаимосвязи между ними и подражать им. Причём это очень быстрая, легковесная нейросеть: это позволяет ей справляться с большим количеством пользовательских запросов в реальном времени.
Большая языковая модель YandexGPT требует больше ресурсов, работает медленнее, но зато способна генерировать сложные, лексически и стилистически разнообразные тексты, в том числе со специфической терминологией. Поэтому мы применили её для создания эталонных примеров, чтобы расширить датасет и повысить его качество. Так более лёгкая нейросеть в Переводчике, обученная на новом датасете, не потеряла в скорости, но стала умнее.
Для генерации эталонных обучающих примеров мы разработали специализированную модель семейства YandexGPT, адаптировав её под задачи перевода. Сначала модель на этапе предобучения (pretraining) проанализировала множество текстов на английском и русском языках и изучила правила лексики, морфологии и синтаксиса.
Следующим этапом шла тонкая настройка языковой модели (supervised finetuning) под задачи перевода. Затем на этапе обучения с подкреплением (reinforcement learning) AI‑тренеры оценивали качество перевода YandexGPT и ранжировали её ответы от лучших к худшим. Кстати, об особенностях работы с reinforcement learning мы тоже недавно писали.
Благодаря всем этим этапам мы создали модель YandexGPT, которая генерирует наиболее качественные примеры для дальнейшего обучения нейросети Переводчика.
Работу дообученной нейросети в Переводчике мы оценивали методом Side by Side (SbS). Асессоры, владеющие русским и английским языком, сравнивали пары длинных и сложных текстов, переведённых с помощью двух версий технологии, и выбирали лучший вариант. В 57% случаев новая версия справлялась лучше.
Обновлённая технология уже используется для перевода текстов с английского на русский язык в Яндекс Переводчике, Поиске, а также в переводе видео в Браузере.
Обсудить