Искусственный интеллект достигает нового уровня реализма с VASA от Microsoft

Компания Microsoft объявила о запуске новой нейросети под названием VASA, которая способна оживлять фотографии и виртуальных персонажей. Используя всего лишь одно статическое изображение и аудиодорожку речи, VASA создаёт видео с говорящими лицами, которые обладают широким спектром эмоций, естественными движениями головы и мимикой. Благодаря обширным экспериментам и оценке по ряду новых метрик, Microsoft попытались превзойти предыдущие генеративные технологии.

VASA не только обеспечивает высокое качество видео, но и поддерживает онлайн-генерацию с разрешением 512x512 до 40 кадров в секунду с незначительной начальной задержкой. Это в будущем может открыть путь для взаимодействия с виртуальными лицами, имитирующими человеческое общение.

Ключевые особенности VASA-1

  1. Реалистичность: Модель способна на синхронизацию движения губ с аудио и захват широкого спектра эмоций, выразительных мимических нюансов и естественных движений головы.

  2. Контролируемость генерации: Диффузионная модель способна учитывать параметры, такие как направление взгляда, положение головы, а также изменение эмоций.

  3. Out-of-distribution generalization: Метод способен обрабатывать фотографии и аудио, которые выходят за пределы тренировочного набора данных, включая рисунки и иллюстрации. VASA также способна использовать аудиодорожки с пением и неанглоязычную речь.

  4. Генерация в реальном времени: Метод генерирует кадры видео размером 512x512 со скоростью 45 кадров в секунду в режиме офлайн и может поддерживать до 40 кадров в секунду в режиме онлайн-трансляции с задержкой всего 170 мс на ПК с одной видеокартой NVIDIA RTX 4090.

Риски и ответственность

Microsoft осознаёт риски и отмечает, что технология должна быть использована исключительно во благо. Однако, существует угроза того, что VASA сможет стать незаменимым инструментом в руках мошенников. Поэтому на данный момент Microsoft не планируют выпускать онлайн-демо, API или продукт, а также сообщать дополнительные детали реализации, пока не будут окончательно уверены, что ИИ будет использоваться ответственно и в соответствии с четкими правилами.

Учитывая потенциал технологии и возможную опасность, связанные с VASA, развитие подобных ИИ в будущем, скорее всего, будет идти медленнее, чем это возможно.

Как вы считаете, должны ли существовать строгие правила для использования подобных технологий?

Материал опубликован при поддержке сайта habr.com
Комментарии