Moonvalley выводит AI-видеомодели на новый уровень с Marey

Несколько лет назад понятия «генеративная AI-модель видео» не существовало. Сегодня их десятки, и многие способны создавать сверхвысококачественные, реалистичные видео уровня Голливуда за секунды на основе текстовых запросов или загруженных изображений и видеоклипов. Если вы читали VentureBeat в последние месяцы, то наверняка сталкивались с материалами о таких моделях и компаниях, которые стоят за ними, от Runway’s Gen-3 до Veo 2 от Google, долгожданной, но наконец-то доступной модели Sora от OpenAI, Luma AI, Pika и китайских стартапов Kling и Hailuo. Даже такие компании, как Alibaba и стартап Genmo, предложили модели для создания видео с открытым исходным кодом.

Эти модели уже использовались при создании некоторых частей крупных блокбастеров, таких как «Все везде и сразу» (Everything, Everywhere All At Once), «Настоящий детектив: Ночная страна» от HBO, а также в музыкальных клипах и телевизионной рекламе для Toys R’ Us и Coca-Cola. Однако, несмотря на быстрое принятие AI в Голливуде и среди кинематографистов, остается одна серьезная проблема: вопросы авторских прав. Судя по всему, большинство стартапов, создающих AI-модели видео, не раскрывают точные данные об их обучающих наборах данных. В основном, они обучены на огромных объемах видео, загруженных в интернет или собранных из других архивных источников, в том числе с материалами, защищенными авторскими правами, владельцы которых могли не дать разрешения на использование их контента для обучения AI. Runway, например, является одной из компаний, которая сталкивается с коллективным иском по этому вопросу, и дело все еще находится в суде. Также сообщается, что Nvidia собрала большое количество видео с YouTube для этих целей. Спор продолжается относительно того, считается ли сбор данных, включая видео, справедливым и трансформационным использованием.

Но теперь существует новая альтернатива для тех, кто обеспокоен вопросами авторских прав и не хочет использовать модели с сомнительной легитимностью. Стартап Moonvalley — основанный бывшими сотрудниками Google DeepMind и исследователями из Meta*, Microsoft и TikTok — представил Marey, генеративную AI-модель видео, разработанную для голливудских студий, кинематографистов и крупных брендов. Это передовая AI-модель видео, которая была обучена исключительно на собственных и лицензированных данных, предлагая этическую альтернативу моделям, созданным с использованием контента, собранного через интернет.

«Люди говорили, что технически невозможно создать передовую AI-модель видео без использования собранных данных», — сказал генеральный директор и соучредитель Moonvalley Наим Талукдар в недавнем видеоинтервью с VentureBeat.

Marey, которая сейчас доступна на основе приглашений в лист ожидания, присоединилась к модели Firefly Video от Adobe, которую этот давний поставщик программного обеспечения также позиционирует как корпоративную — она была обучена только на лицензированных данных и контенте Adobe Stock (к неудовольствию некоторых контрибьюторов) и предоставляет предприятиям юридическую защиту при использовании. Moonvalley также предлагает своим клиентам защиту в соответствии с пунктом 7 этого документа, гарантируя, что они будут защищать своих клиентов за свой счет.

Moonvalley надеется, что эти особенности сделают Marey привлекательной для крупных студий — даже несмотря на то, что такие компании, как Runway, заключают сделки с ними, — и для кинематографистов, среди множества новых AI-решений для создания видео.

Marey стала результатом сотрудничества Moonvalley и Asteria, студии по созданию фильмов и анимации с использованием AI, возглавляемой художниками. Модель разработана для поддержки, а не замены творческих профессионалов, предоставляя кинематографистам новые инструменты для AI-генерации видео, при этом сохраняя традиционные стандарты индустрии.

«Наше убеждение заключалось в том, что вы не добьетесь массового признания в этой индустрии, если не будете работать с ней», — отметил Талукдар.

Индустрия четко дала понять, что для того, чтобы они действительно начали использовать эти модели, нужно было найти способ построить “чистую” модель. И до сегодняшнего дня основным мнением было, что это невозможно.

Вместо того чтобы собирать контент из интернета, Moonvalley выстраивала прямые отношения с создателями для лицензирования их видео. На установление этих партнерств ушло несколько месяцев, но компания обеспечила законность использования всех данных, применяемых для обучения модели.

Стратегия лицензирования Moonvalley также направлена на поддержку создателей контента через компенсацию за их материалы.

«Большинство наших партнеров сами обращаются к нам, услышав о том, что мы делаем. Для многих создателей из маленьких городов их материалы просто лежат без дела. Мы хотим помочь им монетизировать их контент и создать модели, ориентированные на художников. Это становится очень выгодными отношениями», — рассказал Талукдар

Талукдар сообщил VentureBeat, что, хотя компания все еще оценивает и пересматривает свои модели компенсации, в целом они выплачивают создателям вознаграждение в зависимости от продолжительности их видеоматериалов, платя им за час или минуту в рамках лицензионных соглашений на определенный срок (например, на 12 или 4 месяца). Это позволяет получать повторные выплаты, если контент продолжает использоваться.

Цель компании — сделать высококлассное видеопроизводство более доступным и экономически выгодным, позволяя кинематографистам, студиям и рекламодателям исследовать возможности AI-генерации историй без юридических или этических проблем.

Талукдар объяснил, что Moonvalley выбрала другой подход при создании модели Marey по сравнению с существующими AI-видео моделями, сосредоточившись на профессиональной видеопроизводстве, а не на потребительских приложениях.

«Большинство компаний, работающих с генеративным видео сегодня, ориентированы на потребительский рынок. Они создают простые модели, где можно ввести запрос в чатбот, сгенерировать клипы и добавить эффекты. Наш фокус другой: какая технология нужна голливудским студиям? Что нужно крупным брендам для создания рекламы на Супербоуле?», — сказал он.

«Модель ориентирована на контролируемость. Нужно иметь гораздо больше инструментов для управления результатами — например, возможность изменять персонажей. Это первая модель, которая позволяет редактировать видео на уровне слоев, так что вы можете отдельно изменять передний, средний и задний планы. Также это первая модель, созданная для Голливуда, специально для профессионального производства, — отметил Талукдар.

Он также сообщил VentureBeat, что Marey использует гибридную архитектуру трансформера и диффузии, которая сочетает в себе элементы обеих технологий.

«Модель построена на основе трансформеров и диффузии, так что архитектура — это трансформеры, а затем диффузия используется в качестве слоев. Когда вы вводите управляемость, это обычно осуществляется через эти слои», — пояснил Талукдар.

Moonvalley также объявила о привлечении 70 миллионов долларов на ранних стадиях финансирования под руководством Bessemer Venture Partners, Khosla Ventures и General Catalyst. Инвесторы Хемант Танеджа, Самир Каул и Байрон Дитер также вошли в состав совета директоров компании.

С запуском Marey компании Moonvalley и Asteria стремятся стать лидерами в области создания фильмов с использованием AI, предлагая студиям и брендам решение, которое интегрирует AI без ущерба для творческой целостности. Однако стартапы-конкуренты в области AI-видео, такие как Runway, Pika и Hedra, продолжают добавлять новые функции, например, озвучку персонажей и управление их движениями, что усиливает конкуренцию в этой области.

Источник

Meta* и ее продукты (Facebook, Instagram) запрещены на территории Российской Федерации

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"