Википедия тонет под нашествием ботов

Поисковые роботы, которые собирают данные для обучения новых моделей искусственного интеллекта, активно загружают контент с сайтов Wikimedia. Особенно сильно это по тому, как вырос трафик от автоматических программ. По данным Wikimedia Foundation, объём загрузки мультимедийных файлов увеличился на 50% всего за несколько месяцев. Большая часть этого трафика идёт на скачивание 144 миллионов медиафайлов.

Из-за этого у организации начали возникать технические трудности. Проблема в том, что боты занимают слишком много ресурсов. Хотя они обеспечивают около трети всех просмотров страниц, именно они создают две трети самой большой нагрузки на систему. Команда фонда регулярно блокирует такие боты, чтобы сайт продолжал стабильно работать.

Причина резкого роста — в том, что компании, разрабатывающие ИИ, массово собирают открытые данные, чтобы обучать свои модели. Википедия и её проекты — один из главных источников для таких данных. Особенно ценны изображения и видео, которые скачивают с огромной скоростью, попутно создавая запредельные нагрузки на серверы.

Фонд изначально строил свою инфраструктуру так, чтобы она могла справляться с резкими всплесками трафика от людей. Но боты создают поток постоянной нагрузки на сеть, которая не уменьшается. Это снижает устойчивость системы к пиковым событиям, когда трафик от обычных пользователей резко растёт.

При этом обычные читатели обычно читают похожие темы и посещают популярные страницы. А вот боты обходят миллионы страниц, в том числе малоизвестных, что заставляет систему обращаться к основным серверам чаще. Это намного дороже, чем если бы информация поступала из кэша.

Анализ показал, что большая часть самого затратного трафика не похожа на действия обычных браузеров. Оказалось, что 65% такого трафика создают именно боты. Это вызывает серьёзные проблемы — команде по поддержке сайта приходится постоянно вмешиваться и защищать инфраструктуру.

Подобные проблемы наблюдаются не только у Wikimedia. Всё больше сайтов жалуются, что автоматические программы сканируют их страницы, в том числе и технические разделы вроде баг-трекеров или платформ для разработчиков. Всё это требует ресурсов, которые могли бы пойти на дальнейшее развитие проектов.

Контент Wikimedia остаётся бесплатным, но поддержка всей технической части — дорогое удовольствие. Сейчас фонд работает над тем, чтобы ввести более устойчивые правила для доступа к информации. В следующем году планируется внедрение новых подходов к управлению доступом. Цель — сохранить доступность знаний, но при этом защитить инфраструктуру и сосредоточиться на главном: поддержке волонтёров, разработке проектов и предоставлении информации всем, кто в ней нуждается.

Почему критически важно защищать данные
Википедия тонет под нашествием ботов
DDoS-атаки бьют рекорды – бизнес продолжает рисковать
Материал опубликован при поддержке сайта it-world.ru
Комментарии