Одним из основных тестов для проверки навыков рассуждения языковых моделей является GSM8K. Однако его популярность создала риск того, что модели могли быть обучены на его данных, что искажает представление о их реальных способностях. Проще говоря, модели могут «знать» ответы заранее, что ставит под сомнение их способность решать задачи самостоятельно, без опоры на заранее выученные данные.
Чтобы оценить способность LLM к настоящему рассуждению, команда разработала новый тест — GSM-Symbolic. Этот тест сохраняет суть традиционных задач, но меняет переменные, такие как имена, числа, сложность, а также добавляет несущественную информацию, которая не влияет на решение. В результате тестирования более 20 моделей, включая OpenAI o1, GPT-4o, Gemma 2 (Google) и Llama 3 (Meta*), было выявлено снижение точности при любых изменениях в задачах.
Даже при незначительных изменениях переменных (например, имен или чисел) точность моделей снизилась на несколько процентов. Модели OpenAI показали лучшие результаты по сравнению с другими, но отклонения всё равно были значительными, что не должно было происходить при стабильной работе. Самый интересный момент произошел, когда исследователи добавили в задачи «кажущиеся важными, но на деле несущественные утверждения».
Чтобы проверить, действительно ли LLM опираются больше на сопоставление шаблонов, чем на логику, в математические задачи добавлялись ненужные фразы. Например, задача выглядела так:
«Оливер собрал 44 киви в пятницу. Затем он собрал 58 киви в субботу. В воскресенье он собрал вдвое больше киви, чем в пятницу, но пять из них были немного меньше среднего размера. Сколько киви у Оливера?»
При добавлении таких деталей точность всех моделей существенно снизилась. Модель OpenAI o1 показала лучший результат, потеряв 17,5% точности, но для других, таких как Microsoft Phi 3, это падение было значительно большим — вплоть до 65%.
Исследователи отметили, что LLM часто брали из задачи несущественные данные, как, например, пять маленьких киви, что не имело значения для правильного ответа. Это демонстрирует, что модели склонны превращать текстовые утверждения в математические операции, не понимая их смысловой нагрузки. Это подтверждает гипотезу о том, что LLM действуют по принципу шаблонного мышления, а не осознанного рассуждения.
Исследование прямо указывает на «критический недостаток» LLM в способности понимать математические концепции и различать релевантную информацию в задачах. Важно отметить, что исследование проводилось сотрудниками Apple, которая конкурирует с такими компаниями, как Google, Meta* и OpenAI. Однако Apple также сотрудничает с OpenAI, и сама активно разрабатывает собственные ИИ-модели.
Тем не менее, исследование выявило существенные проблемы с формальной логикой у LLM, что подчеркивает необходимость более критического взгляда на текущие успехи в области искусственного интеллекта. Эти результаты служат напоминанием о том, что нельзя безоглядно верить в «разум» ИИ, и нужно подходить к его возможностям с долей здорового скептицизма.
*признана экстремистской организацией и её деятельность запрещена на территории России
Источник
Обсудить