Google запускает SALT: Новый способ ускоренного обучения больших моделей AI с помощью малых
Исследователи из Google разработали метод, позволяющий создавать языковые модели AI, которые одновременно быстрее и лучше, используя необычный подход: предоставляя меньшим моделям обучение для больших.
Совместная команда из Google Research и DeepMind разработала метод обучения под названием SALT (Small model aided large model training), который сокращает время обучения до 28 процентов и одновременно улучшает производительность. Так в чем ключевая инновация? Использование меньших языковых моделей в качестве помощников-преподавателей.
Процесс происходит в два этапа. Сначала большая модель обучается у меньшей модели через процесс, называемый дистилляцией знаний, при котором одна AI-модель обучает другую, предоставляя как свои ответы, так и уверенность в этих ответах. Обычно дистилляция знаний предполагает, что большие модели обучают меньшие, но команда Google обнаружила, что этот процесс может работать и наоборот — по крайней мере, на определённых этапах обучения. На втором этапе большая модель переходит к обычным методам обучения.
Меньшая модель особенно полезна в тех областях, где она уже делает надёжные прогнозы. Для этих более простых задач большая модель обучается быстрее и надёжнее, прежде чем перейти к традиционному обучению для более сложных задач.
SALT может сделать обучение моделей AI более доступным Команда протестировала SALT, используя модель с 1,5 миллиардами параметров для обучения модели с 2,8 миллиардами параметров. Результаты были впечатляющими: большая модель достигла своих целевых показателей производительности всего за 70 процентов обычного времени обучения, а затем продемонстрировала лучшие результаты на различных тестах.
Улучшения особенно проявились после дообучения для конкретных задач. Для математических задач модели, обученные с помощью SALT, достигли точности 34,87 процента по сравнению с 31,84 процента у моделей, обученных традиционным способом. Оценки по пониманию прочитанного выросли с 63,7 процента до 67 процентов.
Исследователи также создали усовершенствованную версию под названием SALTDS, которая тщательно отбирает тренировочные данные, фокусируясь на примерах, в которых меньшая модель показывает хорошие результаты.
Хотя SALT может помочь создавать более мощные крупные языковые модели, он может быть особенно ценным для организаций с ограниченными ресурсами. Вместо необходимости доступа к самым большим AI-моделям учреждения могут использовать SALT для разработки способных языковых моделей с более скромными вычислительными мощностями, отметила команда.
Источник
Написать комментарий