Искусственный интеллект достигает нового уровня реализма с VASA от Microsoft

Компания Microsoft объявила о запуске новой нейросети под названием VASA, которая способна оживлять фотографии и виртуальных персонажей. Используя всего лишь одно статическое изображение и аудиодорожку речи, VASA создаёт видео с говорящими лицами, которые обладают широким спектром эмоций, естественными движениями головы и мимикой. Благодаря обширным экспериментам и оценке по ряду новых метрик, Microsoft попытались превзойти предыдущие генеративные технологии.

VASA не только обеспечивает высокое качество видео, но и поддерживает онлайн-генерацию с разрешением 512x512 до 40 кадров в секунду с незначительной начальной задержкой. Это в будущем может открыть путь для взаимодействия с виртуальными лицами, имитирующими человеческое общение.

Ключевые особенности VASA-1

  1. Реалистичность: Модель способна на синхронизацию движения губ с аудио и захват широкого спектра эмоций, выразительных мимических нюансов и естественных движений головы.

  2. Контролируемость генерации: Диффузионная модель способна учитывать параметры, такие как направление взгляда, положение головы, а также изменение эмоций.

  3. Out-of-distribution generalization: Метод способен обрабатывать фотографии и аудио, которые выходят за пределы тренировочного набора данных, включая рисунки и иллюстрации. VASA также способна использовать аудиодорожки с пением и неанглоязычную речь.

  4. Генерация в реальном времени: Метод генерирует кадры видео размером 512x512 со скоростью 45 кадров в секунду в режиме офлайн и может поддерживать до 40 кадров в секунду в режиме онлайн-трансляции с задержкой всего 170 мс на ПК с одной видеокартой NVIDIA RTX 4090.

Риски и ответственность

Microsoft осознаёт риски и отмечает, что технология должна быть использована исключительно во благо. Однако, существует угроза того, что VASA сможет стать незаменимым инструментом в руках мошенников. Поэтому на данный момент Microsoft не планируют выпускать онлайн-демо, API или продукт, а также сообщать дополнительные детали реализации, пока не будут окончательно уверены, что ИИ будет использоваться ответственно и в соответствии с четкими правилами.

Учитывая потенциал технологии и возможную опасность, связанные с VASA, развитие подобных ИИ в будущем, скорее всего, будет идти медленнее, чем это возможно.

Как вы считаете, должны ли существовать строгие правила для использования подобных технологий?

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"