GenEx пытается научить AI представлять, что находится «за углом»

Исследователи Университета Джонса Хопкинса создали систему искусственного интеллекта, которая может генерировать полностью исследуемое трехмерное окружение по одному фото. Система, названная GenEx, может помочь роботам и AI-агентам лучше понимать и ориентироваться в сложных ситуациях, позволяя им воображать, что находится за пределами их непосредственного видения. Представьте, что это дает машинам форму воображения - способность представить, что может быть за следующим поворотом.

Вместо использования фотографий из реального мира команда обучала GenEx, используя виртуальные окружения из игровых движков, таких как Unreal Engine 5 и Unity. Это позволило им эффективно собирать разнообразные обучающие данные.

Процесс обучения использует кубмапы - способ проецирования 360-градусных видов на шесть квадратов, образующих куб. Команда собирала предопределенные пути исследования через эти виртуальные миры, систематически сканируя разные направления движения для построения комплексного набора данных. Это помогло GenEx научиться создавать плавные переходы между различными точками зрения. По словам исследователей, результаты впечатляют. Даже при исследовании до 20 метров в созданных окружениях изображения остаются стабильными и когерентными. Стандартные метрики качества показывают низкие показатели ошибок, что говорит о том, что система производит очень реалистичные визуализации. GenEx может создавать обзоры сверху, перемещаясь вдоль вертикальной оси, давая AI-агентам более широкий обзор их окружения - как будто иметь перспективу дрона, не нуждаясь в самом дроне.

Система также удивительно хорошо справляется с созданием многопроекционных видео объектов. В то время как другие открытые модели борются с этой задачей, GenEx поддерживает согласованные фоны и реалистичное освещение на протяжении последовательности, говорят исследователи.

Возможно, наиболее впечатляющее, что GenEx может помочь в чем-то, что называется активным 3D-картированием. Пока AI-агент исследует созданное окружение, он строит трехмерную карту всего, что он "видит", подобно тому, как автономные транспортные средства строят карты своих окружений - за исключением того, что все это происходит в воображаемом пространстве GenEx, а не в реальном мире.

"Воображаемое исследование" помогает AI принимать лучшие решения. Исследователи продемонстрировали это на двух сценариях дорожного движения:

В первом случае AI-агент, подъезжающий к нерегулируемому перекрестку, видит серебристую машину, идущую навстречу. С одним изображением агент остановился бы для безопасности. Но, используя GenEx для исследования разных точек зрения, он может заметить стоп-знак, обращенный к другой машине, и решить двигаться дальше, чтобы предотвратить задержки в дорожном движении.

В другом сценарии агент, ожидающий на красный свет, должен решить, повернуть ли направо, что осложнено приближающейся машиной и переходящим пешеходом. Используя GenEx для исследования нескольких точек зрения, агент понимает, что он мешает прямой видимости между машиной и пешеходом. Вместо простого ожидания, он решает предупредить обе стороны о потенциальной опасности.

GenEx позволяет системам AI творчески исследовать окружающую среду, стремясь предоставить знания, эквивалентные физическому исследованию. Исследователи сравнивают это с человеческим воображением - нам не нужно физически обойти пожарную машину, чтобы знать, что она, вероятно, блокирует всю дорогу, или обойти стоп-знак, чтобы знать, что на его задней стороне. GenEx дает AI-агентам подобные воображаемые способности. Когда оборудованный GenEx агент GPT-4o принимал правильные решения в 85% случаев, по сравнению с 46% для агента, работающего с одним изображением. В многоагентных сценариях разница была еще более драматической: 95% точности с GenEx против 22% без него.

Тем не менее, команда признает некоторые ограничения. Преодоление разрыва между воображаемыми и реальными окружениями остается вызовом. Будущая работа должна сосредоточиться на адаптации системы к данным реального мира и динамическим условиям.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"