ElevenLabs теперь позволяет создавать голосовых AI-ботов
Стартап ElevenLabs, специализирующийся на создании голосовых клонов с помощью ИИ и API для преобразования текста в речь, представил новую возможность — создание голосовых AI-ботов.
Теперь пользователи могут создавать полнофункциональных голосовых агентов на платформе ElevenLabs. Настраиваемые параметры включают тональность голоса и длину ответов, что позволяет адаптировать бота под конкретные задачи.
Компания ElevenLabs ранее занималась созданием разнообразных голосов и инструментов для преобразования текста в речь. Однако, как отметил глава отдела развития компании Сэм Склар, многие клиенты уже использовали эти технологии для создания голосовых AI-агентов. Основные сложности, с которыми они сталкивались, касались интеграции базы знаний и обработки прерываний в диалоге. Чтобы устранить эти проблемы, ElevenLabs разработала полноценный процесс, упрощающий создание и настройку голосовых ботов.
Возможности платформы
Пользователи могут начать работу с голосовым агентом, войдя в свой аккаунт ElevenLabs. На первом этапе необходимо выбрать шаблон или создать новый проект. При этом задаются основные параметры: язык общения агента, его приветственное сообщение и системный запрос, определяющий характер и стиль общения.
Разработчики могут настроить использование крупных языковых моделей (например, Gemini, GPT или Claude), установить уровень креативности ответа с помощью параметра температуры и задать ограничение на количество токенов, используемых в диалоге.
Дополнительно доступны настройки таких характеристик, как голос агента, задержка в ответах, стабильность речи, параметры аутентификации и максимальная длина диалога.
Для расширения возможностей агента пользователи могут подключить собственную базу знаний, загрузив файл, указав URL или добавив текст. Также возможна интеграция собственной языковой модели (LLM). SDK ElevenLabs поддерживает языки программирования Python, JavaScript, React и Swift, а также предоставляет WebSocket API для более детальной настройки.
Технологическая база
Для нового продукта ElevenLabs использует свой существующий стек технологий преобразования текста в речь. Однако для создания голосовых AI-ботов компании пришлось разработать собственные возможности преобразования речи в текст.
На данный момент API для преобразования речи в текст не предлагается как отдельный продукт, но в будущем это возможно. Тогда ElevenLabs сможет конкурировать с такими гигантами, как Google, Microsoft и Amazon, а также с специализированными решениями, например, Whisper от OpenAI, AssemblyAI, Deepgram, Speechmatics и Gladia.
Конкуренция
Компания, стремящаяся привлечь инвестиции с оценкой более $3 млрд, конкурирует с другими стартапами в области голосового ИИ, такими как Vapi и Retell, которые также создают голосовых агентов. Более того, ElevenLabs будет соперничать с API для голосового взаимодействия в реальном времени от OpenAI.
Однако ElevenLabs уверена, что благодаря широким возможностям кастомизации и переключению между различными моделями она сможет обеспечить себе преимущество на рынке.
Источник
Написать комментарий