«Неконтролируемая человеческая речь»: какие опасности таит в себе новый набор данных для AI?

Набор данных под названием «Неконтролируемая человеческая речь» содержит более миллиона часов аудиозаписей как минимум на 89 языках. MLCommons утверждает, что создание этого набора данных было мотивировано желанием поддержать исследования и разработки в «различных областях речевых технологий».

«Поддержка более широких исследований в области обработки естественного языка на языках, отличных от английского, помогает сделать коммуникационные технологии доступными большему числу людей по всему миру, — написала организация в блоге в четверг. — Мы ожидаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области улучшения моделей речи на языках с ограниченными ресурсами, более эффективного распознавания речи с разными акцентами и диалектами, а также новых приложений для синтеза речи».

Это, безусловно, достойная цель. Но наборы данных AI, такие как «Неконтролируемая человеческая речь», могут представлять опасность для исследователей, которые решат их использовать.

Предвзятые данные — один из таких рисков. Записи в Unsupervised People’s Speech были сделаны на Archive.org, некоммерческой организации, наиболее известной благодаря инструменту веб-архивирования Wayback Machine. Поскольку многие участники Archive.org говорят по-английски — и являются американцами, — почти все записи в Unsupervised People’s Speech сделаны на английском с американским акцентом, согласно инструкции на официальной странице проекта.

Это говорит о том, что если не проводить тщательную проверку систем искусственного интеллекта, таких как модели распознавания речи и синтеза голоса, которые обучаются на речи людей без контроля, то они могут воспроизводить те же самые предвзятые взгляды. Например, они могут испытывать трудности с расшифровкой английской речи, произнесённой не носителем языка, или с созданием синтетического голоса на других языках, кроме английского.

Неконтролируемая человеческая речь также может содержать записи людей, которые не знают, что их голоса используются в исследовательских целях в области AI, в том числе в коммерческих приложениях. Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны по лицензиям Creative Commons, есть вероятность, что были допущены ошибки.

Согласно анализу Массачусетского технологического института, в сотнях общедоступных наборов данных для обучения AI отсутствует информация о лицензировании и содержатся ошибки. Сторонники прав создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики AI, утверждают, что от создателей не следует требовать «отказа» от наборов данных AI из-за чрезмерной нагрузки, которую такой отказ накладывает на создателей.

«У многих авторов (например, у пользователей Squarespace) нет возможности отказаться от использования», — написал Ньютон-Рекс в посте на X в июне прошлого года. «Для авторов, которые могут отказаться от использования, существует несколько перекрывающихся способов отказа, которые невероятно запутанные и крайне неполные. Даже если бы существовал идеальный универсальный отказ от использования, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный AI использует их работы, чтобы конкурировать с ними. Многие просто не осознают, что могут отказаться».

MLCommons заявляет, что стремится обновлять, поддерживать и улучшать качество «Неконтролируемой речи людей». Но, учитывая потенциальные недостатки, разработчикам следует проявлять серьёзную осторожность.

Источник

Обсудить

Читайте так же:

IT-Weekly: Apple должна предустанавливать российские поисковики; ИТ-отрасль встревожена повышением НДС