Cloudflare открыла доступ своим клиентам к опции по бесплатной блокировке веб-сканеров поисковых ботов с ИИ

09:31
04 Июля 2024
denis-19
165

В начале июля 2024 года сетевая платформа Cloudflare открыла доступ своим клиентам к опции по бесплатной блокировке веб-сканеров поисковых ботов с ИИ. Новая система защиты позволяет запрещать таким ботам извлекать данные для обучения своих ИИ-моделей без согласия владельцев сайтов.

В Cloudflare пояснили, что крупные игроки в сфере ИИ, такие как Google, OpenAI и Apple, позволяют владельцам сайтов блокировать ботов через специальный файл robots.txt. Оказалось, что не все владельцы подобных ботов и ИИ-агентов соблюдают эти правила. Cloudflare сообщила, что некоторые компании для обучения своих ИИ-моделей намеренно обходят ограничения доступа к контенту, постоянно адаптируясь и меняя свои алгоритмы, чтобы избежать обнаружения со стороны администраторов сайтов.

Cloudflare проанализировала трафик таких неправильных ботов и разработала автоматические модели их обнаружения, которые учитывают различные факторы, в том числе включая попытки ботов имитировать действия человека, использующего веб-браузер.

В Cloudflare представили специальную форму для отправки отчёта, позволяющую сообщить о подозрительных ботах и сканерах. На основе полученных от пользователей данных специалисты Cloudflare будут вручную заносить таких ботов с ИИ в чёрный список или убирать оттуда тех ботов, которые попали по ошибке.

В начале мая Роскомнадзор порекомендовал хостинг-провайдерам из реестра ведомства, которым разрешено официально оказывать услуги в РФ. ограничить сбор информации с российских ресурсов иностранными ботами, включая поисковые и веб-сканеры Google, OpenAI и Apple. В ближайшее время провайдеры в РФ должны провести анализ рисков на своих сетях и в случае обнаружения применить новые правила блокировки ботов.

Согласно рекомендациям Центра управления связью общего пользования (ЦМУ ССОП) Роскомнадзора, российским провайдерам «необходимо провести анализ рисков в своей зоне ответственности и при их обнаружении применить правила блокировки сбора сведений поисковыми ботами». В письме ЦМУ ССОП приведён и список идентификаторов (User-agent), по которым можно отличить вредоносных роботов и сканеры уязвимостей (642 идентификатора). Эксперты СМИ уточнили, что список, разосланный Роскомнадзором провайдерам, совпадает с публично доступным перечнем, опубликованным на сервисе GitHub.

Материал опубликован при поддержке сайта habr.com

Читайте так же: