AI не справляется с высокоуровневыми историческими экзаменами: исследование показало лишь 46% точности

AI может превосходно справляться с определёнными задачами, такими как программирование или создание подкастов. Однако ему сложно сдать экзамен по истории на высоком уровне, как показало новое исследование.

Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей LLM — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.

Результаты, представленные в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub (CSH), исследовательским институтом в Австрии. Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.

«Основной вывод этого исследования заключается в том, что модели больших языков, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент компьютерных наук в Университетском колледже Лондона.

Исследователи поделились примерами исторических вопросов, на которые модели больших языков дали неправильные ответы. Например, у GPT-4 Turbo спросили, использовалась ли масштабная броня в определённый период в древнем Египте. Модель ответила утвердительно, хотя технология появилась в Египте только через 1500 лет позже.

Почему модели больших языков плохо отвечают на технические исторические вопросы, тогда как они могут отлично справляться с очень сложными вопросами, такими как программирование? Мария дель Рио-Чанона объяснила, что, вероятно, это связано с тем, что модели больших языков склонны экстраполировать из очень заметных исторических данных и испытывают трудности с извлечением более малоизвестных исторических знаний.

Например, исследователи спросили у GPT-4, имел ли древний Египет профессиональную постоянную армию в определённый исторический период. Хотя правильный ответ — нет, модель ошибочно ответила, что имел. Вероятно, это связано с большим количеством публичной информации о других древних империях, таких как Персия, имеющих постоянные армии.

«Если вам говорят A и B сто раз, и C один раз, а потом задают вопрос о C, вы можете просто запомнить A и B и попытаться экстраполировать из этого», — сказала Мария дель Рио-Чанона.

Исследователи также выявили другие тенденции, включая то, что модели OpenAI и Llama показывали худшие результаты для определённых регионов, таких как субсахарская Африка, что указывает на возможные предвзятости в их тренировочных данных.

Результаты показывают, что модели больших языков всё ещё не могут заменить людей в некоторых областях, сказал Питер Тёрчин, руководитель исследования и член факультета CSH.

Однако исследователи всё ещё надеются, что AI может помочь историкам в будущем. Они работают над уточнением своего бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.

«В целом, несмотря на то, что наши результаты подчеркивают области, в которых моделям больших языков необходимо улучшение, они также демонстрируют потенциал этих моделей в помощи историческим исследованиям», — говорится в статье.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"