Бывший разработчик Runway рассказал, что нейросеть обучали на пиратском контенте и видео с YouTube
Бывший сотрудник Runway рассказал журналистам издания 404media, что модель обучали на пиратском контенте и видео с YouTube. Примечательно, что компания не согласовывала с блогерами использование их видео в датасете. Сотрудник не только рассказал о факте обучения на нелицензированном контенте, но и поделился документом с ссылками на конкретные видео и каналы.
В июне 2024 года журналисты TechCrunch спросили руководство Runway о происхождении данных для обучения модели Gen-3. Тогда запрос издания проигнорировали, но пользователей социальных сетей восхищало качество видео, которые генерировала Runway Gen-3.
В конце июля этого же года бывший сотрудник Runway поделился документом со списком источников данных, на которых обучали модель. Среди них пиратские копии фильмов Pixar, Disney, Netflix и Sony. Также в документе есть ссылки на каналы популярных блогеров. По словам сотрудника, видео с YouTube скачивали с помощью инструмента YouTube-DL. Кроме того, компания приобрела прокси-серверы, чтобы не получить блокировку за массовое скачивание видео с хостинга.
Каналы выбирала специальная группа сотрудников. Целью было найти наиболее качественные видео. Каждый сотрудник отвечал за подборку контента для одного или нескольких ключевых слов, например, «пляж», «дождь» или «спорт».
Журналисты издания 404media проверили факт использования чужих видео. Для этого они делали запросы с именами блогеров из документа. В ответ на это нейросеть генерировала контент в их стиле или даже самих блогеров. Примечательно, что после запроса в пресс-службу Runway, модель перестала обрабатывать такие запросы. Компания пока ничего не ответила журналистам.
Нейросеть Runway Gen-3 представили в июне 2024 года, а общедоступной она стала в начале июля. После этого к журналистам и обратился бывший сотрудник компании. Также издание 404media опубликовало документ, которым поделился разработчик.
Написать комментарий