Команда исследователей разработала новый бенчмарк для проверки трёх ведущих моделей LLM — GPT-4 от OpenAI, Llama от Meta и Gemini от Google — на исторических вопросах. Этот бенчмарк, названный Hist-LLM, оценивает правильность ответов в соответствии с Seshat Global History Databank, обширной базой данных исторических знаний, названной в честь древнеегипетской богини мудрости.
Результаты, представленные в прошлом месяце на престижной конференции по AI NeurIPS, оказались разочаровывающими, согласно исследователям, связанным с Complexity Science Hub (CSH), исследовательским институтом в Австрии. Лучшая из моделей, GPT-4 Turbo, достигла только около 46% точности — это немного выше случайного угадывания.
«Основной вывод этого исследования заключается в том, что модели больших языков, хотя и впечатляющие, всё ещё не обладают глубиной понимания, необходимой для продвинутого изучения истории. Они отлично справляются с базовыми фактами, но когда речь заходит о более тонких, на уровне докторантуры исторических исследованиях, им пока не хватает возможностей», — сказала Мария дель Рио-Чанона, один из соавторов статьи и доцент компьютерных наук в Университетском колледже Лондона.
Исследователи поделились примерами исторических вопросов, на которые модели больших языков дали неправильные ответы. Например, у GPT-4 Turbo спросили, использовалась ли масштабная броня в определённый период в древнем Египте. Модель ответила утвердительно, хотя технология появилась в Египте только через 1500 лет позже.
Почему модели больших языков плохо отвечают на технические исторические вопросы, тогда как они могут отлично справляться с очень сложными вопросами, такими как программирование? Мария дель Рио-Чанона объяснила, что, вероятно, это связано с тем, что модели больших языков склонны экстраполировать из очень заметных исторических данных и испытывают трудности с извлечением более малоизвестных исторических знаний.
Например, исследователи спросили у GPT-4, имел ли древний Египет профессиональную постоянную армию в определённый исторический период. Хотя правильный ответ — нет, модель ошибочно ответила, что имел. Вероятно, это связано с большим количеством публичной информации о других древних империях, таких как Персия, имеющих постоянные армии.
«Если вам говорят A и B сто раз, и C один раз, а потом задают вопрос о C, вы можете просто запомнить A и B и попытаться экстраполировать из этого», — сказала Мария дель Рио-Чанона.
Исследователи также выявили другие тенденции, включая то, что модели OpenAI и Llama показывали худшие результаты для определённых регионов, таких как субсахарская Африка, что указывает на возможные предвзятости в их тренировочных данных.
Результаты показывают, что модели больших языков всё ещё не могут заменить людей в некоторых областях, сказал Питер Тёрчин, руководитель исследования и член факультета CSH.
Однако исследователи всё ещё надеются, что AI может помочь историкам в будущем. Они работают над уточнением своего бенчмарка, включая больше данных из недостаточно представленных регионов и добавляя более сложные вопросы.
«В целом, несмотря на то, что наши результаты подчеркивают области, в которых моделям больших языков необходимо улучшение, они также демонстрируют потенциал этих моделей в помощи историческим исследованиям», — говорится в статье.
Источник
Обсудить