Боты и dxdt.ru

На dxdt.ru трафик минимальный, но тем заметнее набеги ботов. Я достаточно свободно отношусь к фильтрации на сервере, где работает dxdt.ru, но фильтры тут всё же есть: так, автоматический бан IP-адрес может получить за интенсивные попытки подключения по SSH, за не менее интенсивные попытки перебора логинов WordPress, ещё за некоторые достаточно экзотические действия. Это всё реализуется при помощи очень полезного инструмента fail2ban, который я много где и давно использую.

Однако всё чаще, что называется, “набигают” боты, отправляющие по адресам страниц на dxdt.ru десять-пятнадцать GET-запросов в секунду, в течение нескольких минут, включая повторные запросы к тем же URI, на которые буквально только что были получены ответы. И так – несколько раз в сутки (хотя на dxdt.ru новые записки выходят сильно реже, мягко говоря). И это не сканеры уязвимостей, не HTTP-DoS, а это явно какие-то “сломанные контент-боты”. Или, что более вероятно, очередные “скраперы” для целей ИИ – в этой среде, похоже, уже так принято: написать что попало с кривым User-Agent без всяких объяснений.

В общем, приходится иногда в полуавтоматическом режиме некоторые такие адреса включать в отдельный список для HTTP-перенаправления, ведущего в специальный “тупик” с кодом статуса 503: практика показала, что в такой конфигурации эти боты затихают после нескольких повторных запросов. Сейчас в данном списке всего несколько адресов-источников и специфических подстрок User-Agent. Так что, думаю, никакие корректные боты, а их немало ходит, не задеты. Но если вдруг данный строгий метод отключил кому-то RSS-читалку от dxdt.ru (сильно вряд ли, конечно), то напишите письмо – я включу.

Адрес записки: https://dxdt.ru/2024/12/26/14512/

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 2

  • 1 <t> // 28th December 2024, 13:56 // Читатель Проходимец написал:

    Читаю через сервис feedly. RSS похоже не поломался. Но с недавних пор у них появилась возможность вытягивать контент с сайтов без RSS и какой-то AI Feed, что бы это ни значило.

  • 2 <t> // 29th December 2024, 15:13 // Александр Венедюхин:

    Вот Feedly как раз корректно работает: приходит не чаще нескольких раз в час, спрашивает именно RSS-поток, иногда ещё дополнительные адреса; у них нормальный User-Agent, есть ссылка на активную страницу с описанием бота. Может, конечно, тоже добавили отдельный “скрапер”, пытающийся изобразить “браузер”, но пока не замечал.

Написать комментарий

Ваш комментарий:

Введите ключевое слово "8W8ZF" латиницей СПРАВА НАЛЕВО (<--) без кавычек: (это необходимо для защиты от спама).

Если видите "капчу", то решите её. Это необходимо для отправки комментария ("капча" не применяется для зарегистрированных пользователей). Обычно, комментарии поступают на премодерацию, которая нередко занимает продолжительное время.