Исследование OpenAI: больше времени на размышление делает AI более устойчивым к манипуляциям

Новое исследование OpenAI показывает, что модели AI становятся более устойчивыми к попыткам манипуляции, если им дать больше времени на «подумать». Исследователи также обнаружили новые методы атак.

Недавнее исследование OpenAI показывает, что предоставление моделям AI большего времени для обработки информации позволяет им лучше противостоять попыткам манипуляции. Тестируя свои модели o1-preview и o1-mini, исследователи обнаружили как обнадеживающие результаты, так и некоторые неожиданные уязвимости.

Команда протестировала различные методы атак, включая атаки с большим количеством примеров (many-shot attacks),soft token attacks и комплексная имитация реальных атак с целью оценки кибербезопасности систем (human red-teaming). Во всех этих подходах они обнаружили, что модели в целом становятся более устойчивыми к манипуляциям при предоставлении дополнительного времени на обработку, без специального обучения.

Однако результаты были не полностью положительными. В некоторых случаях предоставление моделям большего времени на обработку фактически делало их более уязвимыми к атакам, особенно если модель требует минимальное количество вычислительного времени для решения задачи, поставленной атакующим.

Исследователи также обнаружили два новых типа атак, специально нацеленных на то, как эти модели думают. Первая, называемая «думай меньше» (think less), пытается сократить время обработки модели. Вторая связана с тем, что модели могут попасть в так называемые «непродуктивные циклы размышлений».

Вместо эффективного использования дополнительного времени на обработку модели в итоге тратят ресурсы на бесполезные вычисления. Эта уязвимость создает возможность для атакующих, которые могут намеренно заводить модели в эти ресурсоемкие циклы. В то время как атака «думай меньше» пытается ускорить процесс мышления модели, «нерд-снайпинг» (nerd sniping) делает противоположное — обманывает модели, заставляя их тратить время и ресурсы на бесполезные вычисления.

Что делает эти новые атаки особенно тревожными, так это их сложность обнаружения. В то время как легко заметить, когда модель думает недостаточно долго, чрезмерное время обработки может быть ошибочно принято за тщательный анализ, а не распознано как атака.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"