Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями
Институт искусственного интеллекта Аллена выпустил Tülu 3 405B — языковую модель с открытым исходным кодом, которая, как сообщается, по производительности соответствует или превосходит DeepSeek V3 и GPT-4o. Команда во многом объясняет этот успех новым подходом к обучению под названием RLVR.
Модель, созданная на основе Llama 3.1, использует «обучение с подкреплением с проверяемыми вознаграждениями» (RLVR), которое вознаграждает систему только в том случае, если она выдаёт проверяемые правильные ответы. По словам AI2, этот подход особенно хорошо подходит для математических задач, результаты которых можно легко проверить.
«Обучение модели с 405 миллиардами параметров вывело нас на технический предел, потребовав 32 вычислительных узла с 256 графическими процессорами, работающими вместе. Каждый этап обучения занимал 35 минут, и команде пришлось использовать обходные пути, например вспомогательную модель меньшего размера, чтобы справиться с вычислительными нагрузками. Проект постоянно сталкивался с техническими трудностями, которые требовали постоянного внимания, — опыт, которым редко делятся компании, разрабатывающие аналогичные модели».
AI2 утверждает, что Tülu превосходит другие модели с открытым исходным кодом, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B, несмотря на то, что обучение пришлось завершить досрочно из-за нехватки вычислительных мощностей. Он также соответствует или превосходит по производительности DeepSeek V3 и GPT-4o.
В процессе обучения сочетались контролируемая тонкая настройка, прямая оптимизация предпочтений и RLVR — подход, схожий с обучением Deepseek R1, особенно в том, что, по мнению команды, обучение с подкреплением больше подходит для более крупных моделей.
Пользователи могут протестировать модель в AI2 Playground, код доступен на GitHub, а модели — на Hugging Face.
Источник
Написать комментарий