Вышел ElevenLabs Scribe: распознавание речи лучше Whisper v3 и Gemini 2.0

23:48
26 Февраля 2025
172

Компания ElevenLabs представила Scribe — свою первую модель автоматического распознавания речи , которая уже признана самой точной в мире. Scribe поддерживает 99 языков, обеспечивая временные метки, разделение по спикерам и распознавание аудио-событий для удобной интеграции в любые системы.

В ходе тестирования на бенчмарках FLEURS и Common Voice модель превзошла лидеров рынка, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3.

Она демонстрирует самый низкий уровень ошибок в таких языках, как итальянский (98,7%), английский (96,7%) и еще 97 других.

Scribe делает ASR куда более доступным. Значительно снизился уровень ошибок в языках, традиционно сложных для распознавания, таких как сербский, кантонский и малаялам, где другие модели ошибаются более чем в 40% случаев (я регулярно использую Deepgram Nova для сербского, и проблем действительно много).

🔹 Для разработчиков: Scribe уже доступен через Speech-to-Text API, доступны структурированные JSON-транскрипции с временными метками и разделением спикеров. Скоростная версия для потоковых приложений выйдет в ближайшее время.

🔹 Для создателей контента и бизнеса: можно загружать аудио- и видеофайлы в панели ElevenLabs, получая готовые, форматированные транскрипции.

Бенчмарки

FLEURS - Процент ошибочно распознанных слов - 102 языка:

Common Voice - Процент ошибочно распознанных слов - 102 языка:

С нетерпением жду, когда поддержку Scribe завезут в SuperWhisper. Использую там обычно Deepgram, но качество распознавания у Scribe выглядит куда более многообещающим.

P.S. В своём телеграм-канале я как раз голосом заставляю ИИ писать мне код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!

Материал опубликован при поддержке сайта habr.com

Читайте так же: