OpenAI транскрибировала более миллиона часов видео с YouTube для обучения GPT-4

11:04
07 Апреля 2024
Travis_Macrif
157

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, пишет New York Times. Для этого компания использовала инструмент распознавания речи Whisper.

Ранее на этой неделе Wall Street Journal писала, что OpenAI намерена использовать транскрипции роликов с YouTube для обучения грядущей GPT-5. Источники газеты отмечали, что разработчик применял расшифровки контента с видеохостинга Google при работе над GPT-4, которая вышла в марте прошлого года.

В 2021 году OpenAI столкнулась с нехваткой данных из авторитетных англоязычных источников в интернете. Тогда же компания создала Whisper, работающий на архитектуре нейросети Transformer.

Некоторые сотрудники OpenAI полагали, что это будет противоречить правилам YouTube, поскольку Google запрещает использование роликов вне работы над видеохостингом. Команда расшифровала более миллиона часов видео с YouTube. В этом исследовании участвовал соучредитель и технический директор OpenAI Грег Брокман, который лично отбирал видео, указывают источники NYT. Также он указан как один из создателей Whisper.

Исследование издания демонстрирует, что технологические компании, включая OpenAI, Google и Meta*, в ряде случаев игнорировали корпоративную политику и пытались обойти закон, чтобы получить больше данных.

Google также делала транскрипции видео с YouTube для собственных моделей искусственного интеллекта, поделились собеседники NYT. Действия компании потенциально нарушают авторские права создателей используемого контента. Однако в прошлом году Google расширила правила обслуживания, позволив себе использовать общедоступные данные из «Документов», «Карт» и других собственных сервисов.

В конце прошлого года сама NYT подала в суд на OpenAI и Microsoft, обвинив компании в незаконном использовании информации из публикаций. В ответ OpenAI сообщила, что газета взломала ChatGPT для того, чтобы подать иск.

Исследовательский институт Epoch указывает, что высококачественные данные, которые наиболее ценны для обучения ИИ-моделей, могут закончиться в 2026 году. Компании используют данные быстрее, чем они производятся.

В OpenAI также рассматривали возможность покупки стартапов, которые собирают большие объёмы данных, пишет NYT.

Некоторые сотрудники Google знали, что OpenAI использовала расшифровки видео с YouTube. Однако Google не предъявила обвинения OpenAI, поскольку сама незаконно использовала контент, защищённый авторским правом. Представитель Google Мэтт Брайант заверил, что компании было ничего не известно о методах OpenAI.

Материал опубликован при поддержке сайта habr.com

Читайте так же:

OpenAI транскрибировала более миллиона часов видео с YouTube для обучения GPT-4

OpenAI расшифровала более миллиона часов видео с YouTube для обучения GPT-4, пишет New York Times. Для этого компания использовала инструмент распознавания речи Whisper.

Написать комментарий

Актуальные новости по теме "Array"

Canon анонсировала EOS R50 V: обновлённую версию EOS R50 с улучшенными возможностями видеосъёмки

Маск: xAI приобрела все акции X за $33 млрд

INCYMO запускает платформу креативной рекламы для мобильных игр на базе искусственного интеллекта

ФАС наладит интернет в ПИК и Lovit

GitHub вводит ограничение на количество репозиториев в размере 100 000 шт. на пользователя/организацию с 28 апреля

Сообщество OpenWrt одобрило начало работы над проектом открытого маршрутизатора OpenWrt Two

Microsoft исправила баг в обновлении Windows 10/11, когда USB-принтеры на ПК сами печатали данные протокола IPP

Читайте также

В МИД Германии предложили в ответ на пошлины США ввести в ЕС сбор на обновления iPhone

Учёные представили OLED-дисплей, который может работать и в качестве динамика

Другие новости