Боты и dxdt.ru
На dxdt.ru трафик минимальный, но тем заметнее набеги ботов. Я достаточно свободно отношусь к фильтрации на сервере, где работает dxdt.ru, но фильтры тут всё же есть: так, автоматический бан IP-адрес может получить за интенсивные попытки подключения по SSH, за не менее интенсивные попытки перебора логинов WordPress, ещё за некоторые достаточно экзотические действия. Это всё реализуется при помощи очень полезного инструмента fail2ban, который я много где и давно использую.
Однако всё чаще, что называется, “набигают” боты, отправляющие по адресам страниц на dxdt.ru десять-пятнадцать GET-запросов в секунду, в течение нескольких минут, включая повторные запросы к тем же URI, на которые буквально только что были получены ответы. И так – несколько раз в сутки (хотя на dxdt.ru новые записки выходят сильно реже, мягко говоря). И это не сканеры уязвимостей, не HTTP-DoS, а это явно какие-то “сломанные контент-боты”. Или, что более вероятно, очередные “скраперы” для целей ИИ – в этой среде, похоже, уже так принято: написать что попало с кривым User-Agent без всяких объяснений.
В общем, приходится иногда в полуавтоматическом режиме некоторые такие адреса включать в отдельный список для HTTP-перенаправления, ведущего в специальный “тупик” с кодом статуса 503: практика показала, что в такой конфигурации эти боты затихают после нескольких повторных запросов. Сейчас в данном списке всего несколько адресов-источников и специфических подстрок User-Agent. Так что, думаю, никакие корректные боты, а их немало ходит, не задеты. Но если вдруг данный строгий метод отключил кому-то RSS-читалку от dxdt.ru (сильно вряд ли, конечно), то напишите письмо – я включу.
Адрес записки: https://dxdt.ru/2024/12/26/14512/
Похожие записки:
- Совпадения тегов ключей DNSSEC и парадокс дней рождения
- Реплика: перемешивающие сети Google и фильтрация
- Подпись и использование ключей из TLS-сертификатов для веба
- Записки за сентябрь 2023
- Неравенство треугольника в Интернете и anycast
- "Умные" колонки и смартфоны
- Записки за февраль 2024
- Статья про DNS-измерения в Сети (2020)
- Наложенные сети Google и браузеры в будущем
- Тест SSLLabs и X25519Kyber768
- Заметки за июль 2024
Комментарии читателей блога: 2
1 <t> // 28th December 2024, 13:56 // Читатель Проходимец написал:
Читаю через сервис feedly. RSS похоже не поломался. Но с недавних пор у них появилась возможность вытягивать контент с сайтов без RSS и какой-то AI Feed, что бы это ни значило.
2 <t> // 29th December 2024, 15:13 // Александр Венедюхин:
Вот Feedly как раз корректно работает: приходит не чаще нескольких раз в час, спрашивает именно RSS-поток, иногда ещё дополнительные адреса; у них нормальный User-Agent, есть ссылка на активную страницу с описанием бота. Может, конечно, тоже добавили отдельный “скрапер”, пытающийся изобразить “браузер”, но пока не замечал.
Написать комментарий