Для модели Voice Engine от OpenAI требуется всего лишь 15-секундный образец для клонирования голоса

10:00
30 Марта 2024
Travis_Macrif
226

OpenAI предложила ограниченный доступ к платформе преобразования текста в голос Voice Engine, которой достаточно 15-секундного образца для клонирования голоса. Сгенерированный искусственным интеллектом голос способен по команде зачитывать текстовые подсказки на языке исходника или других языках.

Одними из первых доступ к Voice Engine получили компания в сфере образовательных технологий Age of Learning, платформа визуального повествования HeyGen, ведущий производитель программного обеспечения для здравоохранения Dimagi, разработчик коммуникационных приложений на базе ИИ Livox и система здравоохранения Lifespan.

В OpenAI поделились, что разработка Voice Engine стартовала в конце 2022 года. Технология уже поддерживает предустановленные голоса для API преобразования текста в речь и функции чтения вслух ChatGPT.

Член команды разработчиков Voice Engine Джефф Харрис рассказал, что модель обучили на «сочетании лицензированных и общедоступных данных». OpenAI уточнила, что модель будет доступна примерно 10 разработчикам.

Генерация текста в аудио при помощи ИИ — развивающаяся область. Большинство моделей генеративного ИИ сосредоточены на инструментальных или естественных звуках. Компании Podcastle и ElevenLabs представили свои технологии клонирования голоса, использующие нейросети.

Одновременно с этим правительство США стремится ограничить неэтичное использование голосовых технологий ИИ. В прошлом месяц Федеральная комиссия по связи США запретила звонки с использованием сгенерированных ИИ голосов, поскольку ранее несколько абонентов получили спам-звонки с клонированным голосом американского президента Джо Байдена.

OpenAI сообщила, что её партнёры согласились соблюдать политику использования Voice Engine. Таким образом, они не будут применять модель, чтобы выдавать себя за людей и организации без их согласия. Также OpenAI требует, чтобы партнёры получали «явное и осознанное согласие» владельцев голоса, а не уведомляли их уже после записи.

Кроме того, OpenAI добавляет водяные знаки к аудиозаписям, чтобы отслеживать их происхождение и использование.

Компания предложила несколько шагов, которые должны снизить риски, связанные с подобными инструментами, включая поэтапный отказ от голосовой аутентификации для доступа к банковским счетам, введение политики защиты голосов людей в ИИ, повышение уровня грамотности в области дипфейков и разработку систем отслеживания ИИ-контента.

Материал опубликован при поддержке сайта habr.com

Читайте так же: