OpenAI разработала метод водяных знаков для обнаружения текста, написанного ChatGPT, с надёжностью 99,9%

OpenAI разработала метод водяных знаков для надёжного определения текста, написанного ChatGPT. Компания до сих не выпустила разработку, поскольку проект увяз во внутренних дебатах, длящихся почти два года, пишет Wall Street Journal со ссылкой на источники и внутренние документы OpenAI. Система водяных знаков была готова к развёртыванию ещё год назад.

Сотрудники компании колебались между заявленной приверженностью прозрачности OpenAI и желанием привлечь и удержать пользователей. Компания провела опрос среди лояльных пользователей ChatGPT, который показал, что почти треть отпугнула бы технология выявления текстов, написанных чат-ботом.

Представительница OpenAI поделилась, что в компании обеспокоены возможностью инструмента непропорционально влиять на неносителей английского языка. Она назвала метод технически многообещающим, но имеющим важные риски, которые оценивают в компании.

Сторонники инструмента в компании, включая участвующих в его разработке, считают, что аргументы противников меркнут в сравнении с той пользой, которую может принести такая технология.

Генеративный ИИ способен быстро и бесплатно создать целое эссе или исследовательскую работу на основе одной подсказки. Преподаватели отмечают, что они отчаянно нуждаются в помощи, чтобы пресечь некорректное использование нейросетей.

Некоммерческая организация Center for Democracy & Technology провела опрос среди учителей средних и старших классов. Порядка 59% респондентов были уверены, что их ученики использовали ИИ при выполнении домашних заданий — на 17% больше, чем в предыдущем году, резюмировали исследователи.

ChatGPT работает на основе системы ИИ, которая предсказывает, какое слово или фрагмент слова, известный как токен, должны быть следующими в предложении. Обсуждаемый в OpenAI инструмент немного изменит способ выбора токенов. Решение оставит шаблон, называемый водяным знаком. Такие маркировки должны быть незаметны для человеческого глаза, но их можно обнаружить при помощи технологии компании. Детектор даёт оценку вероятности того, что весь документ или его часть написаны ChatGPT.

Внутренние документы компании демонстрируют, что водяные знаки эффективны на 99,9%, если ChatGPT создаёт достаточный объём нового текста.

Сотрудники компании обеспокоились тем, что водяные знаки можно стереть при помощи простых методов. Например, перевести текст на другой язык и обратно при помощи Google Translate или добавить эмодзи с последующим ручным удалением в ChatGPT, заявил сотрудник OpenAI.

В компании обсуждали возможность предоставления детектора педагогам и сторонним компаниям, которые помогают школам выявлять написанные при помощи ИИ работы и плагиат.

Летом прошлого года Google представила инструмент SynthID для нанесения водяных знаков и идентификации изображений, созданных ИИ. Решение до сих пор находится на стадии бета-тестирования.

У OpenAI есть инструмент для обнаружения изображений, сгенерированных в DALL-E 3. Его тестирование запустили этой весной. Компания отдала предпочтение аудио- и визуальным водяным знакам, а не тексту.

Обсуждение детектора текста, созданного в ChatGPT, началось в ноябре 2022 года. Инструмент создал профессор компьютерных наук Скотт Ааронсон, который работал над безопасностью OpenAI. В начале 2023 года один из учредителей компании Джон Шульман описал плюсы и минусы инструмента в общем документе. Затем руководители OpenAI решили, что им следует получить отзывы от разных людей, прежде чем действовать дальше.

В течение следующих полутора лет руководство неоднократно возвращалось к обсуждению технологии и искало свежие данные, чтобы принять решение о её выпуске. Весной 2023 года OpenAI провела опрос, который показал, что один из четырёх респондентов по всему миру поддерживал идею создания инструмента для обнаружения ИИ-текстов.

Тогда же компания опросила пользователей ChatGPT: 69% респондентов считали, что использование технологии приведёт к ложным обвинениям в применении ИИ. Почти 30% заявили, что будут применять чат-бот от OpenAI реже, если он будет использовать водяные знаки, а решения конкурентов — нет.

Также внутреннее беспокойство в компании вызывало то, что детектор может нанести ущерб качеству генерации текстов ChatGPT. Ранее в 2024 году OpenAI провела тест, который показал, что водяные знаки не ухудшают производительность чат-бота.

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"