CAT4D от Google DeepMind превращает видео в простые 3D-сцены

23:58
03 Января 2025
118

Новая система искусственного интеллекта от Google DeepMind способна превращать обычные видео в динамические 3D-сцены. Команда, в которую входят исследователи из Колумбийского университета и Калифорнийского университета в Сан-Диего, назвала своё творение CAT4D.

Система использует диффузионную модель, которая принимает видео, снятое под одним углом, и генерирует виды с нескольких точек зрения. Затем она объединяет эти различные перспективы в динамическую 3D-сцену. Конечный результат? Видео, в котором можно рассматривать объект под множеством углов.

До сих пор для создания чего-то подобного требовались сложные установки с несколькими камерами, одновременно записывающими одну и ту же сцену. CAT4D упрощает этот процесс, работая с обычными видеоматериалами.

Команда столкнулась с одной проблемой: не было достаточно существующих данных для обучения их AI. Чтобы обойти это, они проявили креативность и смешали реальные видеоматериалы с компьютерно-сгенерированным контентом. Обучающие данные включали многовидовые изображения статических сцен, видео с одной перспективы и синтетические 4D-данные.

Диффузионная модель обучается создавать изображения с определённых углов в конкретные моменты времени. По словам исследователей, CAT4D производит результаты более высокого качества, чем аналогичные системы, хотя всё ещё испытывает трудности с генерацией видео продолжительностью дольше исходного материала.

Технологии вроде CAT4D могут найти применение в нескольких отраслях, отмечают исследователи. Разработчики игр могут использовать её для создания виртуальных окружений, а кинорежиссёры и разработчики дополненной реальности могут интегрировать её в свои рабочие процессы.

Желающие увидеть больше примеров могут посетить страницу проекта на GitHub.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: