ElevenLabs представила Flash, свой самый быстрый AI для преобразования текста в речь

18:29
21 Декабря 2024
215

ElevenLabs представила Flash - новую модель синтеза речи, разработанную для сверхбыстрого выполнения. Flash это новейшая модель преобразования текста в речь от ElevenLabs, создана специально для скорости. Система может преобразовывать текст в речь всего за 75 миллисекунд, не включая сетевые и прикладные задержки, что делает её одной из самых быстрых моделей голосового AI на данный момент.

Компания разработала Flash с учетом приложений в реальном времени, особенно для разговорных AI-агентов, где важны быстрые времена отклика. Хотя модель уделяет приоритетное внимание скорости, ElevenLabs признает некоторые компромиссы: голоса Flash не такие выразительные, как те, которые генерируются более медленными моделями Turbo. Однако ElevenLabs считает, что большинство пользователей не заметят разницы в приложениях реального времени. Слепые тесты компании показывают, что Flash превосходит другие модели с ультранизкой задержкой на рынке.

Flash представлен в двух вариантах: v2 и v2.5. Базовая версия (v2) работает исключительно с английским контентом, в то время как v2.5 поддерживает 32 разных языка. Пользователи могут получить доступ к любой версии через платформу Conversational AI от ElevenLabs или напрямую через API, используя идентификаторы "eleven_flash_v2" и "eleven_flash_v2_5."

Обe версии имеют одинаковую структуру ценообразования, взимая один кредит за каждые два символа обработанного текста. Пользователи могут начать работу с Flash через платформу Conversational AI компании или интегрировав её напрямую через API.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: