Новая модель ИИ Light-R1-32B с открытым исходным кодом превосходит аналоги в решении математических задач

Исследователи представили Light-R1-32B — новую модель ИИ с открытым исходным кодом, оптимизированную для решения сложных математических задач. Теперь она доступна на Hugging Face по разрешённой лицензии Apache 2.0 — бесплатно для предприятий и исследователей, которые могут использовать, внедрять, настраивать или изменять её по своему усмотрению, даже в коммерческих целях.

Модель с 32 миллиардами параметров превосходит по производительности аналогичные (и даже более крупные) модели с открытым исходным кодом, такие как DeepSeek-R1-Distill-Llama-70B и DeepSeek-R1-Distill-Qwen-32B, в стороннем тесте American Invitational Mathematics Examination (AIME), который содержит 15 математических задач, предназначенных для студентов с очень высоким уровнем подготовки, и рассчитан на 3 часа.

Модель превосходит предыдущие альтернативы с открытым исходным кодом по результатам тестов по математике.

Невероятно, но исследователи завершили обучение модели менее чем за шесть часов на 12 графических процессорах Nvidia H800 при общей стоимости около 1000 долларов. Это делает Light-R1-32B одним из самых доступных и практичных подходов к разработке высокопроизводительных математических моделей ИИ. Однако важно помнить, что модель была обучена на Qwen 2.5-32B-Instruct с открытым исходным кодом от Alibaba, который, как предполагается, сам по себе требует гораздо более высоких первоначальных затрат на обучение.

Наряду с моделью команда опубликовала наборы данных для обучения, скрипты и инструменты оценки, обеспечив прозрачную и доступную платформу для создания математических моделей ИИ.

Появление Light-R1-32B стало результатом аналогичных усилий конкурентов, таких как Microsoft Orca-Math.

Исследователи улучшили способности Light-R1-32B справляться со сложными математическими задачами, несмотря на отсутствие у модели навыка длинных цепочек рассуждений. Они использовали контролируемую тонкую настройку (SFT) и прямую оптимизацию предпочтений (DPO) для повышения её эффективности.

На испытаниях Light-R1-32B показал результаты 76,6 балла по AIME24 и 64,6 балла по AIME25, превосходя DeepSeek-R1-Distill-Qwen-32B, который набрал 72,6 и 54,9 балла соответственно.

Эти результаты демонстрируют, что обучение на основе учебной программы эффективно улучшает математические способности моделей, даже если они изначально не поддерживают длинные цепочки рассуждений.

Для справедливого сравнения исследователи очистили обучающие данные от популярных тестов на логическое мышление, таких как AIME24/25, MATH-500 и GPQA Diamond, чтобы избежать утечки данных.

Они также применили фильтрацию ответов по сложности с помощью DeepScaleR-1.5B-preview, создав набор из 76 000 примеров для первого этапа тонкой настройки. Второй, более сложный набор из 3000 примеров ещё больше улучшил производительность.

После обучения команда объединила несколько версий Light-R1-32B, что привело к дополнительным улучшениям. Модель сохраняет высокую способность к обобщению в задачах научного мышления (GPQA), несмотря на её математическую специализацию.

Light-R1-32B распространяется под лицензией Apache 2.0, что позволяет свободно использовать, модифицировать и коммерчески внедрять модель без обязательства раскрытия исходного кода производных работ. Это делает её привлекательной для предприятий и разработчиков, желающих интегрировать или адаптировать модель для своих нужд.

Лицензия предоставляет бессрочное патентное право на использование по всему миру, снижая юридические риски и предотвращая патентные споры. Компании могут использовать Light-R1-32B в коммерческих продуктах, сохраняя контроль над своими инновациями и извлекая пользу из открытой экосистемы ИИ.

Для руководителей Apache 2.0 обеспечивает экономическую эффективность и независимость от поставщиков, устраняя лицензионные сборы и зависимости от проприетарных ИИ-решений. Разработчики могут свободно настраивать и расширять модель, что делает её идеальной для специализированных вычислений и корпоративных приложений ИИ.

Однако, поскольку лицензия не включает гарантийное обслуживание, организациям следует самостоятельно оценивать безопасность и производительность модели перед её использованием в критически важных средах.

Исследователи подчёркивают, что Light-R1-32B — это проверенный и экономичный способ обучения надёжных моделей с длинным контекстом в специализированных областях.

Делясь своей методологией, обучающими данными и кодом, они стремятся снизить затраты на разработку высокопроизводительного ИИ. В перспективе они планируют изучить обучение с подкреплением (RL) для дальнейшего расширения возможностей модели.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"