Proof News: Apple, Nvidia и Anthropic использовали 170 тыс. видео YouTube для обучения своих моделей ИИ без разрешения

22:07
16 Июля 2024
AnnieBronson
59

Компании в сфере искусственного интеллекта вновь оказались в центре скандала, касающегося интеллектуальной собственности. Аналитики Proof News обнаружили, что разработчики ИИ-сервисов, а именно Apple, Nvidia, Anthropic и Salesforce, использовали субтитры к тысячам YouTube-видео для обучения своих моделей искусственного интеллекта без разрешения авторов.

Согласно расследованию Proof News, субтитры к 172,5 тыс. видеороликов с более чем 48 тыс. каналов вошли в датасет под названием The Pile. Аналитики подчёркивают, что речь идёт только о субтитрах, без видеоряда или звука. Среди каналов, перечисленных Proof News, фигурируют довольно крупные и известные: MKBHD (19 млн подписчиков), MrBeast (289 млн), Jacksepticeye (31 млн), PewDiePie (111 млн), каналы ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела, а также каналы образовательных учреждений, таких как Массачусетский технологический институт и Гарвардский университет.

Proof News заявляет, что The Pile использовался Apple, Anthropic, Nvidia и Salesforce в исследовательских работах на тему искусственного интеллекта и для обучения ИИ-моделей. Apple использовала The Pile для обучения Apple Intelligence и модели OpenELM, которую представила в апреле этого года.

Права на The Pile принадлежат некоммерческой организации EleutherAI. Proof News утверждает, что организация не получала разрешения на использование видео с YouTube для сбора данных, при этом сам датасет «доступен любому, у кого есть интернет». Отмечается, что в The Pile вошли материалы не только с YouTube, но и из публикаций Европарламента и англоязычной Википедии.

Anthropic и Salesforce подтвердили Wired, что использовали The Pile для «академических и исследовательских целей» при разработке моделей искусственного интеллекта. Цаймин Сюн, вице-президент Salesforce по исследованиям в области искусственного интеллекта, подчеркнул, что датасет расценивался компанией как «общедоступный».

Сторонние расследования СМИ указывают на то, что другие компании также рассматривают YouTube как источник данных для обучения своих моделей. Согласно материалу The New York Times, Google «просматривала» видео на платформе и использовала субтитры для обучения моделей. Представитель компании сообщил газете, что это допустимо в рамках соглашения YouTube с авторами контента.

NYT также сообщала, что OpenAI обучала модели на роликах с YouTube. В компании не опровергли и не подтвердили это заявление; когда корреспондент The Wall Street Journal задал этот вопрос Мире Мурати, техническому директору OpenAI, она ответила, что «не уверена».

Материал опубликован при поддержке сайта habr.com

Читайте так же: