Microsoft исследует безопасность AI: выявление уязвимостей и этических вызовов в генеративных системах

23:08
14 Января 2025
134

С 2021 года команда Microsoft по безопасности AI протестировала свыше 100 продуктов с генеративным AI для выявления уязвимостей и этических вопросов. Их выводы ставят под сомнение некоторые устоявшиеся представления о безопасности AI и подчёркивают важность человеческого участия.

Оказалось, что наиболее эффективные атаки не всегда самые сложные. «Настоящие хакеры не вычисляют градиенты, они используют социальную инженерию», — говорится в исследовании, на которое Microsoft ссылается в своём отчёте, сравнивая исследования в области безопасности AI с реальной практикой. В одном из тестов команда обошла защиту генератора изображений, спрятав вредоносные инструкции в текстовом описании изображения, без сложных математических расчётов.

Хотя Microsoft разработала PyRIT, инструмент с открытым исходным кодом для автоматизации тестирования безопасности, команда подчёркивает, что человеческое суждение незаменимо. В ходе тестирования стало ясно, насколько эффективно чат-боты могут решать сложные задачи, особенно когда речь идёт о взаимодействии с людьми, которые находятся в уязвимом эмоциональном состоянии. Оценка таких сценариев требует как знаний психологии, так и понимания потенциальных последствий для психического здоровья.

При изучении предвзятости AI команда также опиралась на человеческую интуицию. В одном из случаев они исследовали гендерную предвзятость в генераторе изображений, создавая изображения профессий без указания пола.

Внедрение AI в повседневные приложения выявило новые уязвимости. В одном из тестов команда заставила языковую модель создавать реалистичные сценарии мошенничества. В сочетании с технологией преобразования текста в речь это позволило создать систему, способную взаимодействовать с людьми пугающе реалистично.

Риски не ограничиваются только проблемами AI. Команда выявила традиционную уязвимость (SSRF) в инструменте обработки видео на базе AI, что свидетельствует о наличии как старых, так и новых проблем безопасности. В исследовании особое внимание уделялось рискам, связанным с «ответственным AI», когда системы могут генерировать вредоносный или этически сомнительный контент. Эти проблемы сложно решать, так как они часто зависят от контекста и интерпретации.

Команда Microsoft обнаружила, что случайное представление пользователям проблемного контента может вызывать больше беспокойства, чем преднамеренные атаки, так как это указывает на неэффективность мер безопасности в обычных условиях.

Выводы ясно показывают, что обеспечение безопасности AI — это не разовое мероприятие. Microsoft рекомендует постоянно выявлять и устранять уязвимости, а затем заниматься дополнительным тестированием. Они считают, что это должно подкрепляться нормативной поддержкой и финансовыми стимулами, делающими успешные атаки более затратными. По мнению команды, остаются нерешённые вопросы: как можно выявлять и контролировать опасные возможности AI, такие как убеждение и обман? Как адаптировать тестирование безопасности для различных языков и культур? И как компании могут стандартизировано делиться методами и результатами?

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: