Набор данных под названием «Неконтролируемая человеческая речь» содержит более миллиона часов аудиозаписей как минимум на 89 языках. MLCommons утверждает, что создание этого набора данных было мотивировано желанием поддержать исследования и разработки в «различных областях речевых технологий».
«Поддержка более широких исследований в области обработки естественного языка на языках, отличных от английского, помогает сделать коммуникационные технологии доступными большему числу людей по всему миру, — написала организация в блоге в четверг. — Мы ожидаем, что исследовательское сообщество продолжит создавать и развивать несколько направлений, особенно в области улучшения моделей речи на языках с ограниченными ресурсами, более эффективного распознавания речи с разными акцентами и диалектами, а также новых приложений для синтеза речи».
Это, безусловно, достойная цель. Но наборы данных AI, такие как «Неконтролируемая человеческая речь», могут представлять опасность для исследователей, которые решат их использовать.
Предвзятые данные — один из таких рисков. Записи в Unsupervised People’s Speech были сделаны на Archive.org, некоммерческой организации, наиболее известной благодаря инструменту веб-архивирования Wayback Machine. Поскольку многие участники Archive.org говорят по-английски — и являются американцами, — почти все записи в Unsupervised People’s Speech сделаны на английском с американским акцентом, согласно инструкции на официальной странице проекта.
Это говорит о том, что если не проводить тщательную проверку систем искусственного интеллекта, таких как модели распознавания речи и синтеза голоса, которые обучаются на речи людей без контроля, то они могут воспроизводить те же самые предвзятые взгляды. Например, они могут испытывать трудности с расшифровкой английской речи, произнесённой не носителем языка, или с созданием синтетического голоса на других языках, кроме английского.
Неконтролируемая человеческая речь также может содержать записи людей, которые не знают, что их голоса используются в исследовательских целях в области AI, в том числе в коммерческих приложениях. Хотя MLCommons утверждает, что все записи в наборе данных являются общественным достоянием или доступны по лицензиям Creative Commons, есть вероятность, что были допущены ошибки.
Согласно анализу Массачусетского технологического института, в сотнях общедоступных наборов данных для обучения AI отсутствует информация о лицензировании и содержатся ошибки. Сторонники прав создателей, в том числе Эд Ньютон-Рекс, генеральный директор некоммерческой организации Fairly Trained, занимающейся вопросами этики AI, утверждают, что от создателей не следует требовать «отказа» от наборов данных AI из-за чрезмерной нагрузки, которую такой отказ накладывает на создателей.
«У многих авторов (например, у пользователей Squarespace) нет возможности отказаться от использования», — написал Ньютон-Рекс в посте на X в июне прошлого года. «Для авторов, которые могут отказаться от использования, существует несколько перекрывающихся способов отказа, которые невероятно запутанные и крайне неполные. Даже если бы существовал идеальный универсальный отказ от использования, было бы крайне несправедливо возлагать бремя отказа на создателей, учитывая, что генеративный AI использует их работы, чтобы конкурировать с ними. Многие просто не осознают, что могут отказаться».
MLCommons заявляет, что стремится обновлять, поддерживать и улучшать качество «Неконтролируемой речи людей». Но, учитывая потенциальные недостатки, разработчикам следует проявлять серьёзную осторожность.
Источник
Обсудить