Тесты помогают быстрее и дешевле учить ИИ писать код. Новая работа китайских ученых: TDD для обучения ИИ

Сегодня в HuggingFace Daily papers ачивку #3 daily paper завоевала работа китайских исследователей из TigerLab. Мне она показалась настолько логичной и классной, что захотелось побольше рассказать об этой новости.

Итак, при классическом обучении моделей есть этап Supervised Fine-Tuning, на котором люди вручную подготавливают датасет с примерами качественных ответов для ИИ. Собственно, эти примеры используются для до-обучения модели.

Проблема в том, что подготовка таких датасетов — их разметка, проверка и прочие этапы — требует участия человека, а это самый дорогой и ресурсоемкий процесс в обучении искусственного интеллекта.

В последнее время мы наблюдаем, что модели, обучаемые без ручной разметки, оказываются дешевле и обучаются быстрее, при таком же уровне качества. Прекрасный пример — DeepSeek R1-Zero, который был обучен исключительно на синтетических данных с использованием механизмов Reinforcement Learning, и обошелся в 25 раз дешевле, чем модели с аналогичным качеством.

В чем суть работы

Исследователи использовали ИИ для создания коллекции пар "[задача] + [тесты для её проверки]". Эта работа не требует больших интеллектуальных способностей ИИ, для написания тестов подходят даже простенькие модели.

Скажем, тест может использовать "наивный" алгоритм с полным перебором, и при этом качественно проверять правильные ли ответы выдает "основной" код.

В частности, используемая авторами методика привела к росту на 10 процентных пунктов производительности модели Llama-3.1-8B-Ins и росту на 5 процентных пунктов Qwen2.5-Coder-7B-Ins, сравняв ее по качеству с гораздо более крупной DeepSeek-V2.5 (236B параметров).

Ещё раз: модель в 7 миллиардов параметров стала выдавать качество модели в 236 миллиардов, в 33 раза большей (справедливости ради, DeepSeek V2.5 - это модель с архитектурой Mixture of Expers, и в работе участвует только 21 миллиард параметров, то есть фактический рост в 3 раза).

Кроме того, обучение с подкреплением, основанное как на модели вознаграждения, так и на тест-кейсах, позволило добиться повышения точности программирования в нескольких ключевых бенчмарках, таких как HumanEval, MBPP, BigCodeBench и LiveCodeBench. Применение RL привело к улучшению результатов на HumanEval-plus на 25% и MBPP-plus на 6% всего за 80 шагов оптимизации (!), что демонстрирует невероятный потенциал RL в обучении моделей программированию.

Авторы подчеркивают, что их методология позволяет заменить дорогостоящий ручной труд автоматизированными процессами.

Заключение

Я уже много раз в своих статьях, и у себя в канале писал: DeepSeek открыли ящик Пандоры своей R1-Zero, теперь все кинутся искать Reinforcement Learning подходы без участия человека, и, кажется, мы увидим ещё не одну и не две новости на эту тему в 2025 году. Что и прекрасно, я искренне верю, что масштабирование обучения моделей - это сейчас один из главных барьеров на пути к более качественному ИИ.

----

P.S. Все громкие новости про ИИ, которые попадают в заголовки медиа обычно вырастают из таких "тихих" революционных исследований. Чтобы узнавать о них раньше всех надо регулярно мониторить HuggingFace Daily papers/arXiv recents/GitHub Trending/прочие исследовательские площадки.

Я делаю это на ежедневной основе, и если нахожу такие алмазы - пишу про них у себя в Телеграм канале, вместе с глубокой аналитикой по тому, как это всё влияет на бизнес.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"