Вышел ElevenLabs Scribe: распознавание речи лучше Whisper v3 и Gemini 2.0
Компания ElevenLabs представила Scribe — свою первую модель автоматического распознавания речи , которая уже признана самой точной в мире. Scribe поддерживает 99 языков, обеспечивая временные метки, разделение по спикерам и распознавание аудио-событий для удобной интеграции в любые системы.
В ходе тестирования на бенчмарках FLEURS и Common Voice модель превзошла лидеров рынка, включая Gemini 2.0 Flash, Whisper Large V3 и Deepgram Nova-3.
Она демонстрирует самый низкий уровень ошибок в таких языках, как итальянский (98,7%), английский (96,7%) и еще 97 других.
Scribe делает ASR куда более доступным. Значительно снизился уровень ошибок в языках, традиционно сложных для распознавания, таких как сербский, кантонский и малаялам, где другие модели ошибаются более чем в 40% случаев (я регулярно использую Deepgram Nova для сербского, и проблем действительно много).
🔹 Для разработчиков: Scribe уже доступен через Speech-to-Text API, доступны структурированные JSON-транскрипции с временными метками и разделением спикеров. Скоростная версия для потоковых приложений выйдет в ближайшее время.
🔹 Для создателей контента и бизнеса: можно загружать аудио- и видеофайлы в панели ElevenLabs, получая готовые, форматированные транскрипции.
Бенчмарки
FLEURS - Процент ошибочно распознанных слов - 102 языка:
Common Voice - Процент ошибочно распознанных слов - 102 языка:
С нетерпением жду, когда поддержку Scribe завезут в SuperWhisper. Использую там обычно Deepgram, но качество распознавания у Scribe выглядит куда более многообещающим.
P.S. В своём телеграм-канале я как раз голосом заставляю ИИ писать мне код, обозреваю свежие новости технологий, а ещё публикую эти самые новости раньше всех. Регулярно даю глубокую аналитику по отрасли и всем событиям, и рассказываю как создавать собственных ИИ-агентов и приложения с ИИ. И много других интересных непотребств. Велком!
Написать комментарий