Искусственный интеллект учится понимать физику: как AI развивает интуитивные знания о мире

Новое исследование, проведённое под руководством главы Meta* по искусственному интеллекту Янна Лекуна, демонстрирует, как искусственный интеллект может развивать базовое понимание физики, просто просматривая видео. Полученные результаты подтверждают альтернативное видение Лекуна в отношении генеративного AI.

Исследовательская группа, в которую входят учёные из Meta FAIR, Университета Гюстава Эйфеля и EHESS, показала, что AI может развивать интуитивные знания в области физики с помощью видеообучения с самоконтролем. Их результаты свидетельствуют о том, что системы AI могут понимать фундаментальные физические концепции без заранее заданных правил.

В отличие от генеративных моделей AI, таких как Sora от OpenAI, подход команды использует архитектуру совместного прогнозирования видео (V-JEPA). Вместо того, чтобы генерировать идеальные с точки зрения пикселей прогнозы, V-JEPA делает прогнозы в абстрактном пространстве представлений — ближе к тому, как, по мнению Лекуна, человеческий мозг обрабатывает информацию.

Исследователи позаимствовали из психологии развития эффективный метод оценки под названием «нарушение ожиданий». Изначально этот подход использовался для проверки понимания детьми законов физики. Он показывает испытуемым две похожие сцены — одну физически возможную, а другую невозможную, например, как мяч катится сквозь стену. Измеряя реакцию удивления на эти нарушения законов физики, исследователи могут оценить базовое понимание физики.

Система была протестирована на трёх наборах данных: IntPhys для базовых физических концепций, GRASP для сложных взаимодействий и InfLevel для реалистичных сред. V-JEPA продемонстрировала особую эффективность в понимании постоянства объектов, непрерывности и согласованности форм. Большие мультимодальные языковые модели, такие как Gemini 1.5 Pro и Qwen2-VL-72B, показали результаты ненамного лучше случайных.

Особенно примечательно то, насколько эффективно V-JEPA обучается. Системе потребовалось всего 128 часов видео, чтобы усвоить базовые физические концепции, и даже более простые модели с 115 миллионами параметров показали хорошие результаты.

Эти результаты ставят под сомнение фундаментальное предположение, выдвинутое некоторыми исследователями в области AI: что системам требуются заранее запрограммированные «базовые знания» о физических законах. V-JEPA показывает, что эти знания можно получить только путём наблюдения — подобно тому, как младенцы, приматы и даже молодые птицы могут развивать своё понимание физики.

Это исследование вписывается в более масштабное исследование Meta, посвящённое архитектуре JEPA, которая представляет собой альтернативу генеративным моделям AI, таким как GPT-4 или Sora, для разработки моделей мира. Глава Meta AI ЛеКун считает, что генерация с точностью до пикселя, как в случае с Sora, является тупиковым путём для разработки моделей мира.

Вместо этого ЛеКун выступает за иерархически выстроенные модули JEPA, которые делают прогнозы на разных уровнях абстракции. Цель состоит в том, чтобы создать полноценные модели мира, которые позволят автономным системам AI лучше понимать окружающую среду. Команда уже изучала этот подход с помощью I-JEPA, варианта, ориентированного на изображения, прежде чем перейти к видео.

*Meta и её продукты (Instagram, Facebook) запрещены на территории Российской Федерации

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"