Google представила Lumiere — нейросеть для генерации реалистичных видео

Google представила нейросеть Lumiere для генерации коротких реалистичных видео. Для этого используется модель пространственно-временной диффузии .

Lumiere генерирует пятисекундные видеоролики по текстовому описанию. Главное отличие модели Space-Time-U-Net, которая используется в Lumiere, в том, что она создаёт видео за один проход. Другие нейросети для этого сначала генерируют ключевые кадры, а потом заполняет время между ними. Из-за этого часто возникает несогласование кадров между собой.

Для обучения модели преобразования текста в видео использовали датасет из 30 млн роликов с текстовым описанием. Все видео в наборе данных были в разрешении 128×128 пикселей, длиной 80 кадров и частотой 16 кадров в секунду. На выходе нейросеть генерирует пятисекундные ролики 1024×1024 пикселей.

В Lumiere есть несколько режимов работы. Нейросеть может генерировать видео по текстовому описанию, анимировать изображения, придерживаться заданного стиля и изменять только указанные фрагменты ролика.

Подробное исследование нового метода генерации видео инженеры опубликовали на портале arxive.org. На сайте проекта Lumiere можно ознакомиться с примерами работы нейросети.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"