Разработчики с открытым исходным кодом борются с AI-crawlers

Многие разработчики программного обеспечения считают, что AI-боты — это тараканы интернета. Некоторые разработчики начали давать отпор наивными, часто юмористическими способами.

Хотя любой веб-сайт может подвергнуться атаке вредоносных программ-сканеров, которая иногда приводит к закрытию сайта , разработчики ПО с открытым исходным кодом страдают «непропорционально» сильно, пишет Никколо Венеранди, разработчик настольного Linux-приложения Plasma и владелец блога LibreNews.

По своей природе сайты, на которых размещаются бесплатные проекты с открытым исходным кодом (FOSS), предоставляют большую часть своей инфраструктуры публично, а также, как правило, располагают меньшим количеством ресурсов, чем коммерческие продукты.

Проблема в том, что многие боты на основе искусственного интеллекта не соблюдают файл robot.txt протокола исключения роботов — инструмента, который сообщает ботам, что не следует сканировать, изначально созданного для ботов поисковых систем.

В сообщении блога «крик о помощи» в январе разработчик FOSS Xe Iaso описал, как AmazonBot неустанно бил по веб-сайту сервера Git, что приводило к сбоям DDoS. Серверы Git размещают проекты FOSS, так что любой желающий может загрузить код или внести в него свой вклад.

Но этот бот проигнорировал robot.txt Ясо, спрятался за другими IP-адресами и выдал себя за других пользователей, сказал Ясо.

«Блокировать роботов-искателей на основе AI бесполезно, потому что они лгут, меняют своего агента пользователя, используют резидентные IP-адреса в качестве прокси-серверов и многое другое», — посетовал Ясо.

«Они будут скрейпить ваш сайт, пока он не упадет, а затем они будут скрейпить его еще немного. Они будут нажимать на каждую ссылку на каждой ссылке на каждой ссылке, просматривая одни и те же страницы снова и снова, снова и снова. Некоторые из них даже будут нажимать на одну и ту же ссылку несколько раз в одну и ту же секунду», — написал разработчик в посте.

Поэтому Ясо ответил хитростью, создав инструмент под названием Анубис. Anubis — это проверка доказательства работы обратного прокси , которая должна быть пройдена, прежде чем запросы будут допущены к серверу Git. Он блокирует ботов, но пропускает браузеры, управляемые людьми.

Самое смешное: Анубис — имя бога в египетской мифологии, который ведёт мёртвых на суд. «Анубис взвешивал твою душу (сердце), и если оно было тяжелее перышка, твое сердце съедалось, и ты умирал», — сказал Ясо TechCrunch. Если веб-запрос проходит испытание и определяется как человек, милая аниме-картинка объявляет об успехе. Рисунок — это «мой взгляд на антропоморфизацию Анубиса», — говорит Ясо. Если это бот, запрос отклоняется.

Проект с ироничным названием распространился как ветер среди сообщества FOSS. Iaso поделился им на GitHub 19 марта, и всего за несколько дней он собрал 2000 звезд, 20 участников и 39 форков.

Читайте так же:

Мгновенная популярность Анубиса показывает, что боль Ясо не уникальна. На самом деле Венеранди делился историей за историей. Генеральный директор SourceHut Дрю ДеВолт рассказал, что тратил «от 20 до 100% своего времени в неделю на борьбу с чрезмерно агрессивными крупномасштабными сканерами LLM» и «сталкивался с десятками кратковременных сбоев в неделю». Джонатан Корбет, известный разработчик FOSS, который руководит новостным сайтом Linux-индустрии LWN, предупредил, что его сайт замедляется из-за трафика уровня DDoS «со стороны ботов-скрейперов с искусственным интеллектом». Кевин Фензи, системный администратор огромного проекта Linux Fedora, сказал, что AI-боты-скрейперы стали настолько агрессивными, что ему пришлось заблокировать доступ к ним для всей Бразилии.

Венеранди рассказал TechCrunch, что знает о нескольких других проектах, испытывающих те же проблемы. Один из них «в какой-то момент был вынужден временно забанить все китайские IP-адреса». Давайте на мгновение задумаемся: разработчикам «даже приходится прибегать к запрету целых стран», чтобы просто отбиться от ботов с искусственным интеллектом, которые игнорируют файлы robot.txt, говорит Венеранди.

Помимо оценки души веб-клиента, другие разработчики считают, что месть — лучшая защита. Несколько дней назад на Hacker News пользователь xyzal предложил загрузить запрещенные страницы robot.txt с «кучей статей о пользе употребления отбеливателя» или «статьями о положительном влиянии заражения корью на работоспособность в постели».

«Думаю, нам нужно стремиться к тому, чтобы боты получали отрицательную ценность от посещения наших ловушек, а не просто нулевую ценность», — пояснил xyzal.

Так уж получилось, что в январе анонимный создатель, известный как «Аарон», выпустил инструмент под названием Nepenthes , который нацелен именно на это. Он заманивает краулеров в бесконечный лабиринт фейкового контента, и разработчик признался Ars Technica, что эта цель агрессивна, если не откровенно вредоносна. Инструмент назван в честь плотоядного растения.

А Cloudflare, возможно, крупнейший коммерческий игрок, предлагающий несколько инструментов для защиты от AI-роботов, на прошлой неделе выпустил аналогичный инструмент под названием AI Labyrinth.

Он предназначен для «замедления, запутывания и траты ресурсов AI Crawlers и других ботов, которые не соблюдают директивы «no crawl», — описала Cloudflare в своем сообщении в блоге . Cloudflare заявила, что скармливает некорректно работающим AI Crawlers «нерелевантный контент вместо того, чтобы извлекать данные вашего законного веб-сайта».

ДеВолт из SourceHut рассказал TechCrunch, что «у Nepenthes есть удовлетворительное чувство справедливости, поскольку он скармливает гусеницам чушь и отравляет их колодцы, но в конечном итоге Anubis — это решение, которое сработало» для его сайта.

Но ДеВолт также выступил с публичным, искренним призывом к более прямому исправлению: «Пожалуйста, прекратите легитимизировать LLM или генераторы изображений AI или GitHub Copilot или любой другой мусор. Я умоляю вас прекратить их использовать, прекратить говорить о них, прекратить создавать новые, просто прекратите».

Источник

Материал опубликован при поддержке сайта habr.com
Читайте так же:
Комментарии

    Актуальные новости по теме "Array"

    Другие новости