Stable Virtual Camera: система ИИ для создания 3D-видео из фотографий

Компания Stability AI представила «Stable Virtual Camera» — новую систему искусственного интеллекта, которая преобразует обычные фотографии в 3D-видео без необходимости в сложных 3D-реконструкциях или оптимизации сцен.

Система может создавать 360-градусные видеоролики продолжительностью до 30 секунд, используя всего одну фотографию или до 32 входных изображений. Она поддерживает 14 различных движений камеры, включая вращение на 360 градусов, спирали, эффекты масштабирования и более сложные траектории, такие как лемнискаты (петлеобразные пути). Когда все камеры образуют траекторию, Stability AI сообщает, что сгенерированные изображения являются трёхмерными, согласованными во времени и, как следует из названия, «стабильными».

Система работает с различными форматами изображений, включая квадратные (1:1), портретные (9:16) и альбомные (16:9). Эта возможность стала неожиданностью для исследователей, поскольку модель обучалась только на квадратных изображениях размером 576x576 пикселей. Команда считает, что модель каким-то образом самостоятельно научилась работать с изображениями разных размеров.

«Stable Virtual Camera» основана на модели диффузии с 1,3 миллиарда параметров, построенной на архитектуре Stable Diffusion 2.1. Чтобы улучшить пространственное восприятие, исследователи преобразовали 2D-самосознание модели в 3D-самосознание.

Система обрабатывает входные изображения в два этапа: сначала она генерирует так называемые «опорные изображения» на основе входных данных. Затем она создаёт желаемые перспективы между этими опорными точками. По словам разработчиков, эта двухэтапная процедура помогает обеспечить последовательный и стабильный результат.

Тесты показывают, что Stable Virtual Camera работает лучше, чем существующие решения, такие как ViewCrafter и CAT3D, особенно при обработке больших изменений перспективы и создании плавных переходов.

Система по-прежнему с трудом справляется с точной визуализацией людей, животных и динамических элементов, таких как водная поверхность. Визуальные артефакты могут появляться при сложных движениях камеры или при обработке неоднозначных сцен, особенно когда целевая перспектива значительно отличается от исходного изображения.

Теперь система доступна исследователям по некоммерческой лицензии, а веса модели и исходный код можно свободно найти на Hugging Face и GitHub. Публичная демонстрационная версия также доступна на Hugging Face.

После первых успехов в создании генераторов изображений Stability AI столкнулась с растущей конкуренцией как со стороны проектов с открытым исходным кодом, так и со стороны коммерческих конкурентов, при этом Flux, в частности, стала заметной альтернативой для создания изображений с открытым исходным кодом.

Компания недавно провела реорганизацию, чтобы сосредоточиться на двух ключевых областях: продвижении исследований в области 3D-обработки и синтеза новых изображений, а также разработке оптимизированных моделей для маломощных устройств, таких как смартфоны.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"