ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты
Думали, что «Pokemon» — сложный тест для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.
Лаборатория искусственного интеллекта Hao, исследовательская организация Калифорнийского университета в Сан-Диего, в пятницу внедрила ИИ в игры Super Mario Bros. Claude 3.7 от Anthropic показал наилучшие результаты, за ним следует Claude 3.5. Gemini 1.5 Pro от Google и GPT-4o от OpenAI показали худшие результаты.
Это была не совсем та же Super Mario Bros., что и оригинальная версия 1985 года. Игра запускалась в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы ИИ мог управлять Марио.
Игровой агент, разработанный компанией Hao, передавал ИИ базовые инструкции, например: «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы увернуться», и скриншоты из игры. Затем ИИ генерировал входные данные в виде кода Python для управления Марио.
Тем не менее, Нао говорит, что игра заставила каждую модель «научиться» планировать сложные манёвры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели, основанные на рассуждениях, такие как o1 от OpenAI, которые шаг за шагом «размышляют» над проблемами, чтобы найти решение, показали худшие результаты, чем модели, не основанные на рассуждениях, несмотря на то, что в целом они были сильнее в большинстве тестов.
По словам исследователей, одна из основных причин, по которой модели рассуждений испытывают трудности при игре в реальном времени, заключается в том, что им требуется некоторое время, обычно несколько секунд, для принятия решения о действиях. В Super Mario Bros. время решает всё. Секунда может означать разницу между безопасным прыжком и падением и смертью.
Игры десятилетиями использовались для тестирования ИИ. Но некоторые эксперты поставили под сомнение целесообразность проведения параллелей между игровыми навыками ИИ и технологическим прогрессом. В отличие от реального мира, игры, как правило, абстрактны и относительно просты, и они предоставляют теоретически бесконечный объём данных для обучения ИИ.
Недавние впечатляющие результаты в играх указывают на то, что Андрей Карпати, учёный-исследователь и один из основателей OpenAI, назвал «кризисом оценки».
«На самом деле я не знаю, на какие показатели ИИ сейчас стоит обращать внимание, — написал он в посте на X. — Если коротко, то я не знаю, насколько хороши эти модели прямо сейчас».
По крайней мере, мы можем посмотреть, как ИИ играет в Марио.
Источник
Написать комментарий