Исследователи ByteDance разработали OmniHuman-1 для решения ключевой проблемы в генерации видео с помощью AI: создание естественных человеческих движений в масштабе. Предыдущие системы испытывали трудности при предоставлении большего количества данных для обучения, поскольку большая их часть содержала нерелевантную информацию, которую приходилось отфильтровывать, часто теряя ценные шаблоны движений в процессе.
Чтобы решить эту проблему, OmniHuman обрабатывает несколько типов ввода одновременно — текст, изображение, аудио и позы тела. Такой подход позволяет системе эффективно использовать больше данных для обучения. Исследователи предоставили ей около 19 000 часов видеоматериалов для обучения.
Сначала система обрабатывает каждый тип ввода отдельно, сжимая информацию о движении из текстовых описаний, шаблонных изображений, аудиосигналов и данных о движении в компактный формат. Затем она постепенно преобразует это в реалистичный видеовыход, обучаясь генерировать плавное движение, сравнивая свои результаты с реальными видео.
Результаты показывают естественные движения рта и жесты, которые хорошо соответствуют устному содержанию. Система обрабатывает пропорции тела и окружающую среду лучше, чем предыдущие модели, сообщает команда.
Помимо фотографий реальных людей, система также может эффективно анимировать персонажей мультфильмов. Длина сгенерированных видео ограничена не самой моделью, а доступной памятью. На странице проекта показаны примеры от пяти до 25 секунд. С TikTok и видеоредактором CapCut, достигшими огромных баз пользователей, ByteDance уже реализует функции AI в масштабе. Компания объявила о планах сосредоточиться на разработке ИИ в феврале 2024 года .
Источник
Обсудить