Исследователи из Стэнфорда обучили ИИ играть в Among Us: их агенты выигрывают людей уже в 45% случаев

Исследователи из Стэнфорда выпустили статью про то, как обучили модель играть в Among Us, при этом не используя вообще никаких размеченных людьми данных. Вместо этого они применяли только обучение с подкреплением и несколько этапов файнтюнинга, в ходе которых агенты учились общаться, убеждать, лгать или предсказывать предателя .

Поведение получившихся ИИ-игроков очень напоминает поведение человека: они манипулируют соперниками, врут (правда иногда без повода) и генерируют ложные обвинения. В полностью симуляционных играх их процент победы составляет 56%, а в играх против людей – примерно 45. Да, люди все еще сильнее, но учитывая, что игра требует от игроков сложной социальной стратегии, это удивительный результат. Поехали разбираться, как ученые этого добились.

Итак, на первом этапе агенты должны понять общие правила игры и научиться действовать внутри игровой среды. Для того, чтобы обучить их этому, использовалось обучение с подкреплением, а именно классический алгоритм PPO. Если кратко, на каждом шаге алгоритма у агента есть начальная политика, на основе которой он совершает какие-то действия и получает оценку этих действий от среды. На основе таких оценок агент корректирует свою политику, с которой переходит на следующую итерацию, а затем все повторяется.

Дисклеймер: здесь мы привели лишь краткое поверхностное описание алгоритма. На самом деле PPO гораздо интереснее и глубже, как и другие методы обучения с подкреплением.

Если вас интересуют детали, то вот здесь в нашем тг-канале Data Secrets мы делали большой схематичный разбор PPO и его вариации – GRPO, которая лежит в основе DeepSeek-R1. Кстати, мы – это команда действующих ML-инженеров, и в телеграме мы ежедневно делимся своими конспектами по ML и вот такими разборами свежих статей. Так что заглядывайте: мы и наше большое сообщество всегда радо новым специалистам и энтузиастам :)

В этом случае для агента игра формулировалась как частично наблюдаемая марковская. Это значит, что каждое состояние игры представляется как скрытая переменная, и у агентов есть ограниченные наблюдения. Кроме того, исследователи добавили сюда компоненту социального дедуктивного анализа: то есть агентам нужно не только взаимодействовать с окружающей средой, но и делать выводы на основе обсуждений. Все как у людей.

И да, обучение с подкреплением работает хорошо, но тут его оказывается недостаточно. Агенты действительно хорошо выучивают общие правила и свойства среды, но плохо обучаются общению. Дело в том, что награды за победу слишком редкие и не дают точного сигнала о качестве дискуссии. А ведь в этой игре важно именно общение и построение стратегии.

Так что следующим этапом идет улучшение способностей слушания. Идея в том, что модель обучают извлекать из диалогов полезную информацию: такую, которая помогает делать общие выводы внутри игры. А внутри Among Us главный вывод – это вывод о том, кто из игроков – импостер, так что успех модели на этом этапе определялся просто точностью ее детекции предателя.

Но и это не все. Ведь чтобы донести свои верные предсказания до соратников, модель еще должна научиться убедительно разговаривать. Поэтому следующим этапом обучения стало улучшение "говорения", и оценивали его через степень влияния на других агентов. Функцией потерь стало буквально то, что сообщение данного агента изменило мнение других агентов в правильном направлении.

Кстати, похожим образом обучали и самих импостеров. Правда вместо того, чтобы убеждать других агентов в правильной позиции, они, напротив, пытались их дезинформировать.

С помощью трех описанных этапов обучение зацикливалось. Это называется self-play: модели обучаются друг против друга, постепенно улучшая свою стратегию. Кстати, надо сказать, что внутри архитектуры не обычный трансформер, как мы привыкли, а RWKV рекуррентная модель с линейным вниманием. Ее выбрали, потому что она лучше масштабируется на большой контекст, а в этой задаче это незаменимо. Из трансформера здесь позаимствованы ключи и значения (Key Value), но никакого скалярного произведения между ними нет. Вместо этого в сеть добавляются тензоры Receptance и Weight – аналоги скрытого состояния и гейта забывания из RNN, которые как бы занимают место слоев внимания.

В итоге эксперименты показали, что обученные таким образом модели (RL + listening + speaking), выигрывают в 2 раза чаще, чем стандартные агенты RL. Вот иллюстрация:

Можно заметить, что добавление компонента "говорения" не приводит к сильному росту метрик, в отличие от "слушания". Зато именно благодаря ему у агентов появляются эмергентные стратегии, такие как прямые обвинения и ложные обвинения.

В случае игры с людьми агенты выигрывают в 45% случаев. То есть люди пока побеждают, но разрыв значительно уменьшился. Для сравнения, базовая модель выигрывает только в 15-20% случаев. В основном живые игроки выигрывают за счет того, что лучше распознают ложь: агенты часто верят в подозрения кого-то со стороны других, но не умеют проверять их. Кроме того, люди могут намеренно создавать хаос, а агенты пока не умеют провоцировать друг друга и часто сыпятся на прямых обвинениях или неуместных фразах.

Самое главное в этой работе – это пожалуй то, что обучение происходило вообще без использования разметки от человека. Это в который раз доказывает, что языковые модели могут научиться играть в социальные дедуктивные игры, участвовать в обсуждениях и даже влиять на решения других — и все это только на основе самообучения. Так и до жизни в обществе недалеко :)

Полный текст статьи вы можете найти здесь, а вот тут лежит весь код и демо.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"