Компания Allen AI: новая модель Tülu 3 405B с открытым исходным кодом конкурирует с лучшими моделями

16:29
01 Февраля 2025
128

Институт искусственного интеллекта Аллена выпустил Tülu 3 405B — языковую модель с открытым исходным кодом, которая, как сообщается, по производительности соответствует или превосходит DeepSeek V3 и GPT-4o. Команда во многом объясняет этот успех новым подходом к обучению под названием RLVR.

Модель, созданная на основе Llama 3.1, использует «обучение с подкреплением с проверяемыми вознаграждениями» (RLVR), которое вознаграждает систему только в том случае, если она выдаёт проверяемые правильные ответы. По словам AI2, этот подход особенно хорошо подходит для математических задач, результаты которых можно легко проверить.

«Обучение модели с 405 миллиардами параметров вывело нас на технический предел, потребовав 32 вычислительных узла с 256 графическими процессорами, работающими вместе. Каждый этап обучения занимал 35 минут, и команде пришлось использовать обходные пути, например вспомогательную модель меньшего размера, чтобы справиться с вычислительными нагрузками. Проект постоянно сталкивался с техническими трудностями, которые требовали постоянного внимания, — опыт, которым редко делятся компании, разрабатывающие аналогичные модели».

AI2 утверждает, что Tülu превосходит другие модели с открытым исходным кодом, такие как Llama 3.1 405B Instruct и Nous Hermes 3 405B, несмотря на то, что обучение пришлось завершить досрочно из-за нехватки вычислительных мощностей. Он также соответствует или превосходит по производительности DeepSeek V3 и GPT-4o.

В процессе обучения сочетались контролируемая тонкая настройка, прямая оптимизация предпочтений и RLVR — подход, схожий с обучением Deepseek R1, особенно в том, что, по мнению команды, обучение с подкреплением больше подходит для более крупных моделей.

Пользователи могут протестировать модель в AI2 Playground, код доступен на GitHub, а модели — на Hugging Face.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: