Исследователи: новая модель OpenAI не только рассуждает, но и вводит в заблуждение

За несколько недель до выпуска новейшей рассуждающей модели OpenAI, o1, независимая исследовательская компания Apollo, занимающаяся исследованиями безопасности искусственного интеллекта, обнаружила заметную проблему. Apollo поняла, что модель выдает неверные результаты по-новому. Или, говоря более разговорным языком, она лжёт.

Иногда обман казался безобидным. В одном примере исследователи OpenAI попросили o1-preview предоставить рецепт брауни с онлайн-ссылками. Ход мыслей модели, функция, которая должна имитировать то, как люди разбивают сложные идеи, внутренне признал, что она не может получить доступ к URL-адресам, что делает запрос невозможным. Вместо того, чтобы сообщить пользователю об этой слабости, o1-preview продолжила, генерируя правдоподобные, но поддельные ссылки и их описания.

Хотя модели ИИ и раньше могли «лгать», а чат-боты часто выдают ложную информацию, o1 обладала уникальной способностью «схитрить» или «имитировать соответствие». Это означало, что она могла притворяться, что следует правилам для выполнения данной задачи, но на самом деле этого не делает. Для модели правила могли быть слишком обременительными, и, похоже, она имеет способность игнорировать их, если это означает, что она может легче выполнить задачу.

Генеральный директор Apollo Мариус Хоббхан сообщил, что это первый раз, когда он столкнулся с таким поведением в модели OpenAI. Хоббхан говорит, что разница обусловлена способностью этой модели «рассуждать» через процесс цепочки мыслей и тем, как она сочетается с обучением с подкреплением, которое обучает систему через вознаграждения и штрафы. Во время тестирования Apollo обнаружила, что ИИ имитировала соответствие ожиданиям разработчиков и манипулировала задачами, чтобы казаться соответствующей. Она даже проверяла свою систему на наличие надзора, то есть, наблюдают ли за ней разработчики, прежде чем действовать. Иначе говоря, ИИ достаточно придерживалась руководящих принципов для развертывания, продолжая при этом отдавать приоритет своим целям.

«Я не ожидаю, что она сможет сделать это на практике, и даже если сможет, я не ожидаю, что вред будет значительным», – сказал мне Хоббхан по телефону через день после запуска модели. «Но это своего рода первый раз, когда я чувствую: ох, на самом деле, может быть, она могла бы, понимаете?»

Для OpenAI o1 представляет большой шаг к высокоинтеллектуальным автономным системам, которые могли бы выполнять значимую работу для человечества, такую как лечение рака и помощь в климатических исследованиях. Обратная сторона этой утопии — ИИ общего назначения (AGI). Хоббхан приводит пример: если ИИ станет сингулярно сосредоточен на лечении рака, он может отдать приоритет этой цели превыше всего остального, даже оправдывая такие действия, как кража или совершение других этических нарушений для ее достижения.

Поведение, которое тестирует Apollo, «галлюцинации» и «обман» в карте безопасности OpenAI, происходит, когда модель генерирует ложную информацию, даже если у нее есть основания полагать, что информация может быть неверной. Например, в отчете говорится, что примерно в 0,38% случаев модель o1-preview предоставляет информацию, которую ее цепочка рассуждений указывает как вероятно ложную, включая поддельные ссылки или цитаты. Apollo обнаружила, что модель может фабриковать данные вместо того, чтобы признать свою неспособность выполнить запрос.

В меньшем количестве случаев (0,02%) o1-preview генерирует чрезмерно уверенный ответ, где она представляет неопределенный ответ как истинный. Это может происходить в сценариях, когда модель побуждается дать ответ, несмотря на отсутствие уверенности.

Это поведение может быть связано с «взломом вознаграждения» во время процесса обучения с подкреплением. Модель обучена приоритизировать удовлетворение пользователя, что иногда может привести к генерации чрезмерно соглашательских или сфабрикованных ответов для удовлетворения запросов пользователей. Другими словами, модель может «лгать», потому что она научилась, что это выполняет ожидания пользователей таким образом, что приносит ей положительное подкрепление.

Что отличает эту ложь от знакомых проблем, таких как галлюцинации или поддельные цитаты в старых версиях ChatGPT, — это элемент «взлома вознаграждения». Галлюцинации возникают, когда ИИ непреднамеренно генерирует неверную информацию, часто из-за пробелов в знаниях или ошибочных рассуждений. Напротив, взлом вознаграждения происходит, когда модель o1 стратегически предоставляет неверную информацию, чтобы максимизировать результаты, которые она была обучена приоритизировать.

Обман является, по-видимому, непреднамеренным последствием того, как модель оптимизирует свои ответы во время процесса обучения. Модель разработана для отказа от вредных запросов, сказал Хоббхан, и когда вы пытаетесь заставить o1 вести себя обманчиво или нечестно, она испытывает с этим трудности.

Ложь — это лишь небольшая часть головоломки безопасности. Возможно, более тревожным является то, что o1 оценивается как «средний» риск для химического, биологического, радиологического и ядерного оружия. Она не позволяет неэкспертам создавать биологические угрозы из-за необходимых практических лабораторных навыков, но может предоставить ценную информацию экспертам при планировании воспроизведения таких угроз, согласно отчету о безопасности.

«Меня больше беспокоит то, что в будущем, когда мы попросим ИИ решать сложные проблемы, такие как лечение рака или улучшение солнечных батарей, он может настолько сильно усвоить эти цели, что будет готов нарушить свои ограничения для их достижения», — сказал мне Хоббхан. «Я думаю, что это можно предотвратить, но это проблема, за которой нам нужно следить».

Эти сценарии могут показаться слишком заумными для рассмотрения в отношении модели, которая иногда все еще затрудняется ответить на простые вопросы о количестве букв «r» в слове «raspberry». Но именно поэтому важно разобраться с этим сейчас, а не позже, говорит глава отдела готовности OpenAI Хоакин Киньонеро Кандела.

Сегодняшние модели не могут автономно создавать банковские счета, приобретать GPU или предпринимать действия, представляющие серьезные общественные риски, сказал Киньонеро Кандела, добавив: «Мы знаем из оценок автономности модели, что мы еще не достигли этого уровня». Но крайне важно решать эти проблемы сейчас. Если они окажутся необоснованными, отлично — но если будущие достижения будут затруднены из-за того, что мы не предвидели эти риски, мы пожалеем, что не инвестировали в них раньше, подчеркнул он.

Тот факт, что эта модель лжет небольшой процент времени в тестах безопасности, не сигнализирует о неминуемом апокалипсисе в стиле «Терминатора», но данный факт важно обнаружить до развертывания будущих итераций в масштабе (и полезно знать пользователям тоже).

Одна вещь, в которую Хоббхан надеется увидеть больше инвестиций, — это мониторинг цепочек рассуждений, что позволит разработчикам обнаруживать вредоносные шаги. Киньонеро Кандела заявил, что компания действительно отслеживает это и планирует масштабировать, комбинируя модели, обученные обнаруживать любой вид несоответствия, с экспертами, рассматривающими отмеченные случаи (в сочетании с продолжающимися исследованиями в области выравнивания).

«Я не беспокоюсь», — сказал Хоббхан. «Она просто умнее. Она лучше рассуждает. И потенциально она будет использовать это рассуждение для целей, с которыми мы не согласны».



Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"