Специалисты «Яндекса» разработали решение, позволяющее бизнесу сократить расходы на внедрение нейросетей до восьми раз
Команда Yandex Research совместно с исследователями IST Austria и Kaust разработала и опубликовала в свободном доступе новые методы сжатия больших языковых моделей. По словам разработчиков, эти методы позволяют сократить бизнесу расходы на вычислительные ресурсы до восьми раз.
Чтобы большая языковая модель отвечала качественно и быстро, требуется множество дорогостоящих мощных графических процессоров. Решение «Яндекса» позволяет уменьшить модель в несколько раз. Это сокращает количество необходимых для работы процессоров и позволяет запустить её на устройствах с меньшей вычислительной мощностью. Это делает внедрение нейросетей и обслуживание оборудования дешевле для бизнеса. При использовании других методов сжатия значительно теряется качество ответов нейросети. Метод, разработанный учёными «Яндекса», решает эту проблему.
Решение компании включает два инструмента. Первый позволяет получить уменьшенную до восьми раз нейросеть, которая может быть запущена, например, на одном графическом процессоре вместо четырёх. Второй инструмент исправляет ошибки, которые возникают в процессе сжатия большой языковой модели.
Эффективность методов сжатия нейросетей оценивали на популярных моделях с открытым исходным кодом: Llama 2, Llama 3, Mistral и других. Качество ответов оригинальной и сжатой версии нейросети сравнивали на англоязычных бенчмарках — тестах, которые состоят из наборов вопросов в разных областях знаний. Новый подход показал лучший результат среди всех существующих методов сжатия. Метод Яндекса сохраняет в среднем 95% качества ответов нейросети. Для сравнения, другие популярные инструменты сохраняют для тех же моделей от 59% до 90% качества.
Новые методы сжатия нейросетей уже доступны для применения, а код опубликован на GitHub. Также специалисты могут скачать уже сжатые с помощью новых методов популярные модели с открытым исходным кодом. Исследователи Yandex Research выложили обучающие материалы, которые помогут разработчикам дообучить уменьшенные нейросети под свои сценарии. На Хабре есть статья с разбором этих методов.
Написать комментарий