Результаты взлома Claude получены, и хакеры победили

23:33
15 Февраля 2025
145

Результаты джейлбрейка Claude от Anthropic уже готовы. После пяти дней напряженных исследований, в ходе которых было обработано более 300 000 сообщений и, по оценкам Anthropic, затрачено 3700 часов коллективных усилий, защита системы искусственного интеллекта наконец-то дала трещину.

Исследователь Anthropic Ян Лейке поделился на X, что четыре участника успешно прошли все уровни испытаний. Один участник сумел найти универсальный джейлбрейк — по сути, мастер-ключ, чтобы обойти защитные ограждения Клода. Anthropic выплачивает победителям в общей сложности 55 000 долларов.

Задача показала, что классификаторы безопасности, хотя и полезны, сами по себе не являются достаточной защитой, говорит Лейке. Это соответствует тому, что мы узнали из других недавних исследований безопасности AI — редко бывает универсальное решение, а вероятностный характер этих моделей делает их защиту особенно сложной.

Лейке подчеркивает, что по мере того, как возможности моделей становятся все более совершенными, устойчивость к взлому становится ключевым требованием безопасности для предотвращения ненадлежащего использования, связанного с химическими, биологическими, радиоактивными и ядерными рисками.

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: