Anthropic протестировала модель Claude 3.7 Sonnet на игре Pokémon Red

08:58
25 Февраля 2025
219

Компания Anthropic использовала Pokémon для тестирования своей новейшей модели искусственного интеллекта.

В сообщении блога, опубликованном в понедельник, компания Anthropic сообщила, что протестировала свою последнюю модель Claude 3.7 Sonnet на классической версии Game Boy Pokémon Red. Компания оснастила модель базовой памятью, возможностью ввода пикселей на экране и вызовами функций для нажатия кнопок и перемещения по экрану, что позволяет играть в Pokémon непрерывно.

Уникальной особенностью Claude 3.7 Sonnet является его способность к «расширенному мышлению». Как и o3-mini от OpenAI и R1 от DeepSeek, Claude 3.7 Sonnet может «рассуждать» о сложных задачах, применяя больше вычислений и тратя больше времени.

По-видимому, это пригодилось в Pokémon Red.

В отличие от предыдущей версии, Claude 3.7 Sonnet успешно преодолел испытания и победил трёх лидеров спортзалов покемонов, получив их значки.

Теперь неясно, сколько вычислений потребовалось модели Claude 3.7 Sonnet, чтобы достичь этих результатов, и сколько времени это заняло. Компания Anthropic сообщила только, что модель выполнила 35 000 действий, чтобы достичь последнего уровня, Surge.

Наверняка пройдет совсем немного времени, прежде чем какой-нибудь предприимчивый разработчик узнает об этом.

Pokémon Red — это скорее игрушка, чем что-то серьёзное. Однако существует долгая история использования игр для тестирования ИИ. Только за последние несколько месяцев появилось несколько новых приложений и платформ для тестирования игровых способностей моделей в играх от Street Fighter до Pictionary.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: