Угроза безопасности: как злоумышленники могут манипулировать AI-агентами

Новое исследование показывает, что AI-агенты с доступом в Интернет уязвимы для простых тактик манипулирования. Злоумышленники могут обманом заставить эти системы раскрывать личную информацию, загружать вредоносные файлы и отправлять мошеннические электронные письма — и всё это без каких-либо специальных знаний в области AI или программирования.

Исследователи из Колумбийского университета и Университета Мэриленда протестировали несколько известных AI-агентов, в том числе Anthropic Computer Use, MultiOn Web Agent и исследовательского ассистента ChemCrow. Их исследование показало, что эти системы на удивление легко взломать.

Исследователи разработали всеобъемлющую систему для классификации различных типов атак, изучив:

  • Кто запускает атаки (внешние злоумышленники или злонамеренные пользователи)

  • На что они нацелены (кража данных или манипулирование агентами)

  • Как они получают доступ (через операционную среду, хранилище или инструменты)

  • Какие стратегии они используют (например, запрос на джейлбрейк)

  • Какие уязвимости конвейера они используют

В ходе одного показательного теста исследователи создали поддельный веб-сайт для «немецкого холодильника с искусственным интеллектом» под названием «Himmelblau KÖNIGSKÜHL Diplomat DK-75» и продвигали его на Reddit. Когда агенты AI посещали этот сайт, они сталкивались со скрытыми подсказками для взлома, предназначенными для обхода их мер безопасности. Во всех десяти попытках агенты свободно раскрывали конфиденциальную информацию, например номера кредитных карт. Системы также без колебаний загружали файлы из подозрительных источников.

Исследование выявило опасную уязвимость в интеграции электронной почты. Когда пользователи входят в систему электронной почты, злоумышленники могут манипулировать агентами AI, чтобы отправлять убедительные фишинговые электронные письма контактам. Эти сообщения представляют повышенную угрозу, поскольку они приходят с законных аккаунтов, что затрудняет их идентификацию как мошеннических.

Даже специализированные научные агенты обнаруживали пробелы в системе безопасности. Команда успешно манипулировала ChemCrow, чтобы получить инструкции по созданию нейротоксина, скармливая ему измененные научные статьи с использованием стандартной химической номенклатуры IUPAC в обход протоколов безопасности.

Несмотря на уязвимости этих экспериментальных систем, компании продолжают двигаться в направлении коммерциализации. ChemCrow доступен через Hugging Face, Claude Computer Use существует в виде скрипта на Python, а MultiOn предлагает API для разработчиков.

Компания OpenAI запустила ChatGPT Operator в коммерческую эксплуатацию, в то время как Google разрабатывает Project Mariner. Такое быстрое внедрение напоминает первые запуски чат-ботов, когда системы вводились в эксплуатацию, несмотря на известные проблемы с галлюцинациями.

Исследователи настоятельно рекомендуют усилить меры безопасности. Их рекомендации включают внедрение строгого контроля доступа, проверку URL-адресов, обязательное подтверждение пользователем загрузки файлов и контекстно-зависимые проверки безопасности. Они также предлагают разработать формальные методы проверки и автоматизированное тестирование уязвимостей для защиты от этих угроз.

Пока эти меры безопасности не будут внедрены, команда предупреждает, что те, кто первым предоставит агентам AI доступ к личным учётным записям, столкнутся со значительными рисками.

Источник

Материал опубликован при поддержке сайта habr.com
Комментарии

    Актуальные новости по теме "Array"