Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей — решено в GPT 1o

Сегодня вышла новая модель от OpenAI GPT1o. Попробовал, хитрые задачки из Linguistic Benchmark Questions вроде той что на картинке или . Новая GPTo1 решает. Буквально месяц назад на Habr выходила статья-перевод про такие задачи - Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей. Вывод был, что это большая проблема, ступор, кризис в отрасли, в комментариях писали, что LLM никогда не превзойдет... и кажется уже можно эту статью удалять. Т.е. есть некоторый шанс что новую модель просто обучили на этом самом Linguistic Benchmark Questions, а с уникальными новыми вопросами она справится хуже, но тут уже надо внимательнее исследовать.

Сегодня вышла новая модель от OpenAI GPT1o. Попробовал, хитрые (и не очень) задачки из Linguistic Benchmark Questions вроде той что на картинках ниже или про братьев («У Алисы есть N братьев и M сестер. Сколько сестер у брата Алисы?» ) . Новая GPTo1 решает. Буквально месяц назад на Habr выходила статья про такие задачи Ахиллесова пята ИИ: простая задача, обнажившая слабости всех языковых моделей - ступор, кризис, LLM никогда не превзойдет... и кажется уже можно ее удалять. Есть шанс что ее обучили на этом самом Linguistic Benchmark Questions, а с новыми вопросами она справится хуже, но тут уже надо внимательнее исследовать.

Кажется это и правда что-то новое, и теперь надо попробовать со сложными задачами на программирование. Протестируем и напишем в нашем ТГ канале AI4Dev, где мы пишем об использовании LLM в разработке софта.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"