CAT4D от Google DeepMind превращает видео в простые 3D-сцены
Новая система искусственного интеллекта от Google DeepMind способна превращать обычные видео в динамические 3D-сцены. Команда, в которую входят исследователи из Колумбийского университета и Калифорнийского университета в Сан-Диего, назвала своё творение CAT4D.
Система использует диффузионную модель, которая принимает видео, снятое под одним углом, и генерирует виды с нескольких точек зрения. Затем она объединяет эти различные перспективы в динамическую 3D-сцену. Конечный результат? Видео, в котором можно рассматривать объект под множеством углов.
До сих пор для создания чего-то подобного требовались сложные установки с несколькими камерами, одновременно записывающими одну и ту же сцену. CAT4D упрощает этот процесс, работая с обычными видеоматериалами.
Команда столкнулась с одной проблемой: не было достаточно существующих данных для обучения их AI. Чтобы обойти это, они проявили креативность и смешали реальные видеоматериалы с компьютерно-сгенерированным контентом. Обучающие данные включали многовидовые изображения статических сцен, видео с одной перспективы и синтетические 4D-данные.
Диффузионная модель обучается создавать изображения с определённых углов в конкретные моменты времени. По словам исследователей, CAT4D производит результаты более высокого качества, чем аналогичные системы, хотя всё ещё испытывает трудности с генерацией видео продолжительностью дольше исходного материала.
Технологии вроде CAT4D могут найти применение в нескольких отраслях, отмечают исследователи. Разработчики игр могут использовать её для создания виртуальных окружений, а кинорежиссёры и разработчики дополненной реальности могут интегрировать её в свои рабочие процессы.
Желающие увидеть больше примеров могут посетить страницу проекта на GitHub.
Источник
Написать комментарий