В Bluesky предложили «новый стандарт» сбора данных для обучения ИИ

В первой половине марта социальная сеть Bluesky опубликовала на GitHub предложение с опциями, которые предоставили бы пользователям возможность давать разрешения на извлечение их постов и данных для обучения моделей искусственного интеллекта и публичного архивирования. Генеральный директор компании Джей Грейбер сообщила о намерении создать «новый стандарт» для управления сбором данных, аналогичный файлу robots.txt, который сайты применяют для передачи разрешений веб-сканерам.

Предыдущие сообщения Bluesky о намерении разрешить предоставлять данные для обучения ИИ вызвали недовольство среди пользователей. Ранее платформа обещала не продавать пользовательские данные рекламодателям и не обучать ИИ-модели на постах.

По словам Грейбер, компании в сфере ИИ «уже собирают публичные данные со всего интернета», включая Bluesky. В связи с этим компания и намерена создать новый стандарт.

Дебаты об обучении ИИ и авторских правах привлекли внимание к robots.txt, подчёркивая факт того, что файл не имеет юридической силы. Bluesky указывает, что предлагаемый стандарт будет иметь похожий «механизм и ожидания», предоставляя «машиночитаемый формат, которому должны следовать хорошие акторы». Стандарт будет «иметь этический вес, но не юридическую силу».

В соответствии с этим предложением, пользователи Bluesky и других приложений, применяющих базовый протокол ATProtocol, смогут разрешить или запретить в настройках использование своих данных. Речь идёт о данных в четырёх категориях: генеративный ИИ, объединение протоколов, общие массивы данных и веб-архивирование.

Компании и исследовательские группы, создающие датасеты для ИИ, должны уважать отказ пользователя, который они видят при веб-скрейпинге или выполнении массовых передач с использованием самого протокола.

Материал опубликован при поддержке сайта habr.com
Комментарии