Stability AI представила обновление модели Stable Audio 2.0

13:10
07 Апреля 2024
daniilshat
34

Stability AI рассказала в блоге о релизе модели машинного обучения Stable Audio 2.0. После обновления нейросеть может генерировать музыкальные композиции длительностью до трёх минут в стерео и с частотой дискретизации 44,1 кГц. Кроме того, пользователи могут загружать свои треки и изменять их с помощью промптов.

Нововведения в Stable Audio:

На выходе получаются треки с когерентной музыкальной структурой длительностью до трёх минут. Это значит, что каждая композиция включает в себя вступление, основную тему, завершение и переходы между частями произведения.
Нейросеть генерирует аудио с частотой дискретизации 44,1 кГц.
Применяется эффект стерео для разделения частей композиции на правый и левый каналы.
Кроме базовой функции генерации из текста в аудио появился новый режим. С его помощью пользователь может загрузить аудиофайл и преобразовать его. Разработчики отмечают, что это может быть полезно музыкантам, которые ищут новое звучание. Правила сервиса запрещают использовать для генерации в новом режиме треки, защищённые авторским правом.
Нейросеть научили генерировать звуки окружения, например, клики клавиш клавиатуры или шум толпы. Их можно добавлять к музыкальным композициям или экспортировать и использовать в сторонних проектах.
У сгенерированных или загруженных треков можно менять стиль.

Stable Audio 2.0 обучали на данных компании AudioSparx. Датасет состоит из более чем 800 тыс. аудиофайлов с музыкой, звуковыми эффектами и записями отдельных музыкальных инструментов. Каждый файл сопроводили текстовыми метаданными. Отмечается, что пользователям AudioSparx, которые пополняют библиотеку звуков, предоставили возможность исключить свои работы из датасета.

Механизм защиты авторских прав разработали совместно с компанией Audible Magic. Технология распознавания контента в реальном времени проверяет права и помогает предотвращать использование защищённых композиций.

На YouTube-канале Stability AI запустили Stable Radio — бесконечную трансляцию с треками, которые генерирует нейросеть. Протестировать возможности Stable Audio можно на официальном сайте проекта.

Материал опубликован при поддержке сайта habr.com

Читайте так же: