Разработчики с открытым исходным кодом борются с AI-crawlers

14:42
28 Марта 2025
171

Многие разработчики программного обеспечения считают, что AI-боты — это тараканы интернета. Некоторые разработчики начали давать отпор наивными, часто юмористическими способами.

Хотя любой веб-сайт может подвергнуться атаке вредоносных программ-сканеров, которая иногда приводит к закрытию сайта , разработчики ПО с открытым исходным кодом страдают «непропорционально» сильно, пишет Никколо Венеранди, разработчик настольного Linux-приложения Plasma и владелец блога LibreNews.

По своей природе сайты, на которых размещаются бесплатные проекты с открытым исходным кодом (FOSS), предоставляют большую часть своей инфраструктуры публично, а также, как правило, располагают меньшим количеством ресурсов, чем коммерческие продукты.

Проблема в том, что многие боты на основе искусственного интеллекта не соблюдают файл robot.txt протокола исключения роботов — инструмента, который сообщает ботам, что не следует сканировать, изначально созданного для ботов поисковых систем.

В сообщении блога «крик о помощи» в январе разработчик FOSS Xe Iaso описал, как AmazonBot неустанно бил по веб-сайту сервера Git, что приводило к сбоям DDoS. Серверы Git размещают проекты FOSS, так что любой желающий может загрузить код или внести в него свой вклад.

Но этот бот проигнорировал robot.txt Ясо, спрятался за другими IP-адресами и выдал себя за других пользователей, сказал Ясо.

«Блокировать роботов-искателей на основе AI бесполезно, потому что они лгут, меняют своего агента пользователя, используют резидентные IP-адреса в качестве прокси-серверов и многое другое», — посетовал Ясо.

«Они будут скрейпить ваш сайт, пока он не упадет, а затем они будут скрейпить его еще немного. Они будут нажимать на каждую ссылку на каждой ссылке на каждой ссылке, просматривая одни и те же страницы снова и снова, снова и снова. Некоторые из них даже будут нажимать на одну и ту же ссылку несколько раз в одну и ту же секунду», — написал разработчик в посте.

Поэтому Ясо ответил хитростью, создав инструмент под названием Анубис. Anubis — это проверка доказательства работы обратного прокси , которая должна быть пройдена, прежде чем запросы будут допущены к серверу Git. Он блокирует ботов, но пропускает браузеры, управляемые людьми.

Самое смешное: Анубис — имя бога в египетской мифологии, который ведёт мёртвых на суд. «Анубис взвешивал твою душу (сердце), и если оно было тяжелее перышка, твое сердце съедалось, и ты умирал», — сказал Ясо TechCrunch. Если веб-запрос проходит испытание и определяется как человек, милая аниме-картинка объявляет об успехе. Рисунок — это «мой взгляд на антропоморфизацию Анубиса», — говорит Ясо. Если это бот, запрос отклоняется.

Проект с ироничным названием распространился как ветер среди сообщества FOSS. Iaso поделился им на GitHub 19 марта, и всего за несколько дней он собрал 2000 звезд, 20 участников и 39 форков.

Читайте так же:

Григоренко: развитие своих современных технологий обеспечивает суверенитет РФ

Мгновенная популярность Анубиса показывает, что боль Ясо не уникальна. На самом деле Венеранди делился историей за историей. Генеральный директор SourceHut Дрю ДеВолт рассказал, что тратил «от 20 до 100% своего времени в неделю на борьбу с чрезмерно агрессивными крупномасштабными сканерами LLM» и «сталкивался с десятками кратковременных сбоев в неделю». Джонатан Корбет, известный разработчик FOSS, который руководит новостным сайтом Linux-индустрии LWN, предупредил, что его сайт замедляется из-за трафика уровня DDoS «со стороны ботов-скрейперов с искусственным интеллектом». Кевин Фензи, системный администратор огромного проекта Linux Fedora, сказал, что AI-боты-скрейперы стали настолько агрессивными, что ему пришлось заблокировать доступ к ним для всей Бразилии.

Венеранди рассказал TechCrunch, что знает о нескольких других проектах, испытывающих те же проблемы. Один из них «в какой-то момент был вынужден временно забанить все китайские IP-адреса». Давайте на мгновение задумаемся: разработчикам «даже приходится прибегать к запрету целых стран», чтобы просто отбиться от ботов с искусственным интеллектом, которые игнорируют файлы robot.txt, говорит Венеранди.

Помимо оценки души веб-клиента, другие разработчики считают, что месть — лучшая защита. Несколько дней назад на Hacker News пользователь xyzal предложил загрузить запрещенные страницы robot.txt с «кучей статей о пользе употребления отбеливателя» или «статьями о положительном влиянии заражения корью на работоспособность в постели».

«Думаю, нам нужно стремиться к тому, чтобы боты получали отрицательную ценность от посещения наших ловушек, а не просто нулевую ценность», — пояснил xyzal.

Так уж получилось, что в январе анонимный создатель, известный как «Аарон», выпустил инструмент под названием Nepenthes , который нацелен именно на это. Он заманивает краулеров в бесконечный лабиринт фейкового контента, и разработчик признался Ars Technica, что эта цель агрессивна, если не откровенно вредоносна. Инструмент назван в честь плотоядного растения.

А Cloudflare, возможно, крупнейший коммерческий игрок, предлагающий несколько инструментов для защиты от AI-роботов, на прошлой неделе выпустил аналогичный инструмент под названием AI Labyrinth.

Он предназначен для «замедления, запутывания и траты ресурсов AI Crawlers и других ботов, которые не соблюдают директивы «no crawl», — описала Cloudflare в своем сообщении в блоге . Cloudflare заявила, что скармливает некорректно работающим AI Crawlers «нерелевантный контент вместо того, чтобы извлекать данные вашего законного веб-сайта».

ДеВолт из SourceHut рассказал TechCrunch, что «у Nepenthes есть удовлетворительное чувство справедливости, поскольку он скармливает гусеницам чушь и отравляет их колодцы, но в конечном итоге Anubis — это решение, которое сработало» для его сайта.

Но ДеВолт также выступил с публичным, искренним призывом к более прямому исправлению: «Пожалуйста, прекратите легитимизировать LLM или генераторы изображений AI или GitHub Copilot или любой другой мусор. Я умоляю вас прекратить их использовать, прекратить говорить о них, прекратить создавать новые, просто прекратите».

Источник

Материал опубликован при поддержке сайта habr.com

Читайте так же: