Опубликована AI-модель синтеза речи Zonos

Компания Zyphra опубликовала под лицензией Apache 2.0* первый бета-выпуск AI-модели для синтеза речи Zonos.

Компания Zyphra выпустила первую бета-версию AI-модели Zonos для синтеза речи. Она умеет клонировать голос – для этого нужно предоставить образец длительностью 10–30 секунд. Модель поддерживает английский, японский, китайский, французский и немецкий языки.

Zonos включает две модели размером 1,6 миллиарда параметров, обученные на более чем двух сотнях часов речи. Данные включают как нейтральную (например, озвучку аудиокниг), так и эмоциональную речь. Большая часть данных — на английском, но также есть значительный объем записей на китайском, японском, французском, испанском и немецком языках. Источником данных послужил открытый интернет, а не брокеры данных.

Искусственный интеллект выбирает лучшие инвестиционные стратегии

По функционалу Zonos работает как другие TTS-модели, но, в отличие от коммерческих решений (например, ElevenLabs), Zyphra опубликовала свой продукт под лицензией Apache 2.0.

Для знакомства с моделью доступен демо-режим, а также платный API и подписки. Если вы не хотите загружать голос на сторонние серверы, модель можно легко запустить локально.

Zonos содержит 1.6 млрд параметров и обучена на 200 000 часов аудиозаписей. Она умеет воспроизводить как монотонную речь (например, для аудиокниг), так и эмоциональную (как в живом разговоре). Можно также задать начало фразы, и модель продолжит её в том же стиле, например, сохраняя шёпот.

В каких странах больше других доверяют ИИ?

Генерируемая речь сохраняется с с частотой дискретизации 44kHz. В нее можно вставлять синтезированные фрагменты для создания диалогов с разными голосами, а также управлять скоростью, тоном и эмоциями (радость, страх, печаль, гнев).

По заявлению разработчиков, Zonos по качеству не уступает лучшим открытым и коммерческим системам (например, ElevenLabs и FishSpeech). Однако у модели бывают небольшие звуковые артефакты – например, кашель или дыхание в начале и конце записи.

Для запуска Zonos предусмотрен готовый образ для Docker с web-интерфейсом на базе Gradio. Установить его можно с помощью команды:

git clone https://github.com/Zyphra/Zonos.git
cd Zonos
docker compose up

После этого интерфейс будет доступен по адресу http://localhost:7860.

Для работы с нейросетью желательно иметь видеокарту NVIDIA серии 3000 с минимум 6 ГБ памяти, а с GPU RTX 4090 модель работает в два раза быстрее, чем требуется для синтеза в реальном времени.

* лицензия Apache даёт пользователю право использовать программное обеспечение для любых целей, свободно изменять и распространять изменённые копии, за исключением названия.

Между тем, компания xAI, основанная Илоном Маском, представила свою новую модель искусственного интеллекта — Grok 3. По предварительным данным, эта нейросеть намного мощнее, чем известные модели, такие как Gemini 2 Pro от Google DeepMind, DeepSeek V3, Claude 3.5 от Anthropic и даже GPT-4o от OpenAI.

Читайте также
Ильдар Шербанов: «ИИ не заменит человека, но сократит R&D в несколько раз»
Как цифровизация меняет фармацевтическое производство, почему переход на ERP — процесс «от года и до бесконечности» и с какими вызовами сталкиваются ИТ-специалисты в фарме? В интервью журналу IT Manager Ильдар Шербанов, ИТ-директор компании «Эллара», рассказал о роли BI и видеоаналитики на производстве, перспективах ИИ в разработке лекарств и о том, как найти баланс между безопасностью, автоматизацией и жесткой регуляторикой.

Материал опубликован при поддержке сайта it-world.ru
Комментарии

    Актуальные новости по теме "Array"