Подсчёт числа “посетителей блогов” в Интернете

Abacus. Credit:  aussiegall, Flickr.comВ связи с изменениями в законодательстве, обсуждают то, как можно определить, что тот или иной сайт (блог) посещает более трёх тысяч пользователей в сутки. Конечно, вариант с использованием некоторого веб-счётчика – он не самый подходящий, прежде всего потому, что требуется наличие счётчика на страницах сайта. Некоторые владельцы ресурсов полагают, что данные о посещаемости известны только веб-мастеру или администратору сервера (хостинг-провайдеру). Это не так.

Определить посещаемость можно при помощи анализа HTTP-трафика, проводимого на сетях провайдеров доступа (либо на точках обмена трафиком, что неплохо подходит для российского сегмента Интернета). То есть, нужно использовать DPI. Наблюдая за трафиком, относительно несложно посчитать число заходов браузеров на заданный ресурс. Думаю, основная идея метода достаточно очевидна: считаются GET-запросы, содержащие заданный URL. Не обязательно даже следить за всем потоком трафика: полные данные можно вычислить по некоторой выборке.

Есть ещё дополнительные косвенные методы. Например, запросы к серверам DNS, скажем, к корневым. Частота запросов о заданном имени хоста (об адресе сайта) связана с посещаемостью этого сайта. Правда, запросы выполняют рекурсивные резолверы, поэтому собранную статистику нужно “нормировать” по числу клиентов, обслуживаемых тем или иным резолвером. (Последняя величина, кстати, тоже косвенно определяется из наблюдений за DNS-запросами, а точнее – за вариативностью этих запросов, приходящих от разных резолверов; грубо говоря, данные выдаёт “дисперсия”, но это детали.)

Другое дело, что такое понятие, как “посещение сайта интернет-пользователем”, – оно очень размыто, для него нет определения. Это одна из фундаментальных проблем всякой веб-аналитики: строго говоря, пользователи никогда не заходят на сайты – это делают их компьютеры. Можно подумать, что это излишняя придирка к терминам, но это не так: представьте, что персональный компьютер без ведома пользователя заражён вредоносной программой, и запросы к сайтам делает именно эта программа. Результат запроса пользователю не показывается, то есть он заведомо не просматривает страниц. Нередкая ситуация в современной сетевой реальности.

Для того, чтобы получить хоть какую-то уверенность, что за компьютером сидит живой человек, нужно проделать дополнительные фокусы: мы все о них хорошо знаем – это и капчи, и авторизация, и наблюдение за действиями пользователя на сайте, включая фиксирование путей указателя мыши, интервалов времени и тому подобных штук. Это действительно проблема. Впрочем, примерному определению посещаемости она, похоже, не препятствует.

()

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 2

  • 1. 19th May 2014, 20:41 // Читатель sarin написал:

    подсчёт количества посетителей – проблема даже для владельца ресурса. впрочем, человек посередине ничем от владельца ресурса по возможностям не отличается, ну почти.
    вот подсчёт просмотров уже решаемая задача, но и тут нюансы есть.

    с подсчётом посетителей проблема изначально проистекает из того, что один человек пользуется разными компьютерами. никакие куки тут не помогут. можно считать зарегестрированных читателей, но одному пользователю может принадлежать несколько логинов (пусть и в нарушение правил ресурса) и несколько человек могут пользоваться одним, особенно если регистрация замороченная.

  • 2. 20th May 2014, 16:05 // Читатель jno написал:

    И к чему такие сложности?
    Целью закона-то что является? Фаллометрия что ли?
    А коли так, то ждите “вменённый трафик” (по прямой аналогии с “вменённым доходом”).
    Для того, чтобы назначить какой-то ресурс СМИ вовсе не требуется там ничего измерять – надо просто назначить. А потом уже можно и “измерить” (а то и реально измерить… что-нибудь) – скажем, для суда.

    Короче, не надо оргштатные меры пытаться подменить некими техническими процедурами.