04:39, 12 марта 2025

Четыре поведенческие стратегии для улучшения рассуждающих языковых моделей

Большие языковые модели уже сегодня могут решать сложные задачи. Но почему некоторые из них рассуждают эффективнее, а другие почти не прибавляют в результативности после десятков циклов обучения?

Читать на сайте

Недавнее исследование команды из Стэнфорда «Cognitive Behaviors that Enable Self-Improving Reasoners» дает убедительный ответ: все дело в «когнитивных стратегиях поведения» - специальных стратегиях, которые помогают моделям самоулучшаться.

Люди, решая сложные задачи (по математике, логике и планированию), не просто выдают линейную последовательность действий, но:

Исследователи задались вопросом: нужно ли этим «приемам» обучать и языковые модели, чтобы те могли действительно улучшать результаты, используя дополнительное «время на подумать»?

Чтобы ответить на вопрос, авторы взяли две модели схожего размера — Qwen-2.5-3B и Llama-3.2-3B — и проверили, как они обучаются с подкреплением (RL) в задаче обратного отсчета (Countdown). В этой задаче надо достичь целевого числа, используя несколько заданных чисел и основные арифметические операции. Пример: у нас есть числа 25, 30, 3, 4, и цель — 32. Нужно найти последовательность действий, чтобы результат был ровно 32, например (30−25+3)×4. Почему именно задача обратного отсчета? Игра требует математического поиска и планирования, но при этом остается достаточно простой, чтобы явно следить за процессом рассуждений.

Цель исследования

Исследователи хотели выяснить:

  1. Что именно позволяет моделям повышать точность?

    Читайте так же:
  2. Можно ли «подсказать» модели нужные приемы мышления так, чтобы она потом сама училась эффективнее?

  3. Зависит ли это от корректности примеров или важнее просто «форма» рассуждения?

Оказалось, что все упирается в четыре ключевых стратегии:

Методы исследования

Авторы использовали предварительная настройку (priming), чтобы проверить, можно ли «вживить» эти модели поведения. Авторы дали Llama небольшой набор примеров, где решения (пусть даже порой неверные) содержали нужные паттерны мышления. Результат: во время RL-тренировок Llama стала учиться куда эффективнее и догонять Qwen по итоговой точности.

Оказалось, что у Qwen-3B примерно на 30-м шаге обучения резко появляются полезные паттерны (самопроверка и возврат для исправления ошибок), а у LLAMA-3B они почти не проявляются. Более того, даже базовая версия Qwen (без дообучения) уже гораздо чаще применяет эти стратегии (62%), чем LLAMA (10%), а крупная LLAMA-70B тоже уступает маленькой Qwen.

Вдобавок авторы сформировали специальный датасет из OpenWebMath, где заранее отфильтровали тексты, содержащие явные упоминания подцелей, откатов и т.д. После дополнительного обучения на этом корпусе Llama практически сравнялась с Qwen по способности самоулучшаться.

Результаты

Выводы

Исследование показало, что четыре вида когнитивных стратегий (проверка, откат, подцели и обратный вывод) оказываются ключевыми для реального самоулучшения. Если модель этим стратегиям не обучена, обычное RL не вытягивает ее на новый уровень. Но стоит внедрить нужные примеры (пусть даже шаблонные) или собрать датасет с хорошей долей таких рассуждений, как модель тут же начинает делать качественный скачок.

Но если модель откуда-то подхватит ошибочные стратегии, но при этом будет ими активно пользоваться, может усилиться неадекватное поведение. Также если в исходном датасете нет подобных когнитивных паттернов, приходится дополнительно собирать и обрабатывать данные, что удорожает обучение. И вообще чем более сложные стратегии задействует модель, тем труднее отследить, в какой момент она допускает критическую ошибку, выводя из строя всю цепочку.

Если вам интересна тема ИИ, подписывайтесь на мой Telegram-канал — там я регулярно делюсь инсайтами по внедрению ИИ в бизнес, запуску ИИ-стартапов и объясняю, как работают все эти ИИ-чудеса.

Обсудить
Читайте так же: