Реплика: индексация секретов “Яндексом” и robots.txt

Наверное, многие уже слышали про популярную сейчас охоту за утечками персональных данных в поисковиках. Тут очень весело читать, как следом за пресс-службой “Яндекса” в тематических СМИ поминают веб-мастерам файл robots.txt, обвиняя в том, что веб-мастера, дескать, не подготовили “правильное описание сайта”. Robots.txt никак не является инструментом для разграничения доступа на веб-сайте. И не может оправдать слишком любопытного бота, выкладывающего данные из закрытых разделов серверов в общий доступ.

Если посмотреть на ситуацию с технической стороны, то элементы URL-а (грубо говоря, вся часть после имени хоста) – это специальные параметры, предназначенные для изменения состояния веб-сервера. Веб-сервер – это программа, которая извлекает с диска некоторые файлы. Доступны ли эти файлы всем обратившимся на сервер, не доступны ли – регулируется это вовсе не неким robots.txt. В современной веб-разработке вполне себе нормальна передача секретных ключей доступа в параметрах URL-ов. Ну так вот сложилось. Например, так передают одноразовые ключи в системах восстановления паролей по e-mail. И это правильно, потому что является эффективным и безопасным методом, учитывающим подготовку и технические возможности среднего пользователя. Особенно актуально для сайтов, ориентированных на массового клиента.

Эти ключи в составе “адреса веб-страницы” – определяют уровень доступа к файлам или функциям сайта через веб-сервер. То есть, это команды не для “поискового паука”, а для веб-сервера. В современной технологической традиции команды эквивалентны вводу логина/пароля и полностью входят в состав секретного URL, который, впрочем, тоже можно “индексировать” поисковым роботом, предварительно стянув где-нибудь. А robots.txt тут ни при чём. Более того, довольно логично, что веб-мастер решает не указывать даже часть секретного адреса в этом общедоступном файле.

(Да, а ещё можно устроить робота-паука так, что он станет подбирать ключи в URI; надеемся, что “Яндекс” так не поступает.)

Поэтому, когда “Яндекс” или другой поисковик индексируют “секретные URL”, которые узнали тем или иным способом, – их действия, в общем-то, аналогичны ситуации, когда робот-паук передаёт веб-серверу с помощью метода POST логин и пароль. И не нужно тут пенять на веб-мастера, что он robots.txt не написал.

()

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 13

  • 1. 27th July 2011, 21:44 // Читатель player1 написал:

    Мне вообще непонятно, почему претензии высказываются к поисковикам.
    Очевидно, что вина целиком лежит на владельцах ресурсов, разрешающих доступ к приватным/персональным данным либо вообще без авторизации, либо позволяющих реализовать подбор (типа – перебор URI поисковым роботом).

    Особенно показателен пример Мегафона.
    Сервис – отправка СМС с сайта. Система работает строго в одну сторону, на отправку, хотя логично если она сохраняет тексты в базе данных.
    Официально текст отправленных СМС нельзя просмотреть даже залогиненному в сервис-гиде абоненту (во всяком случае раньше было нельзя), такой услуги оператор не предоставляет. Дажена свои собственные СМС.

    Зато выясняется, что текст ранее отправленных СМС можно получить из базы данных путем формирования хитрого URI, чтои продемонстрировал поисковый робот.

    Вопрос – какого мегафон вообще реализовал выдачу ранее отправленных СМС из своей БД на API взаимодействия с веб-сайтом?

    Как-то так.

  • 2. 27th July 2011, 23:37 // Читатель aa написал:

    > Очевидно, что вина целиком лежит на владельцах ресурсов, разрешающих
    >
    > либо позволяющих реализовать подбор.

    Прежде чем делать заявление о возможности подбора, взгляните на типичный токен (интернет магазин сармик.ру):

    code=Y2hlbW92b2xlZ0BtYWlsLnJ1 &hash=f253ea88311ceb3229ea115226c49287

    У мегафона с смс-ками только хеш в параметрах: &sign=6d146aa6825a809aa58e8615e1ccb5ae

    В данном случае (интернет-магазин) – токен состоит из кода длиной 25 символов над алфавитом a-zA-Z0-9 (62 ^ 24 = 1 * 10^43 ~ 142 бита) и из хеша длиной 32 символа над алфавитом hex (16^32 = 3 * 10^38 ~ 128 бит).

    Коды такой длины (128 бит) не умеют (ресурсов вычислительных не хватает) подбирать даже для случаев, когда не требуется обращение к веб-серверу (ключи шифрования). А к веб-серверу такой объем данных прокачать невозможно (время, необходимое на передачу 10^43 запросов будет сравнимо с временем существования планеты).

    Таким образом мне, после простых оценок количества вариантов, абсолютно очевидна невозможность подбора этих кодов, зато очевидно, что поисковик где-то спер эту ссылку и проиндексировал ее. Сейчас есть две гипотезы, где поисковик мог найти эту ссылку: получить через Яндекс.Бар или через Яндекс.Метрику. Также очевидно, что поисковик ничего не смущаясь, индексирует значительную долю прослушанных (оба сервиса оказываются в этой ситуации снифферами) адресов.

    > Вопрос ? какого мегафон вообще реализовал выдачу ранее отправленных
    > СМС из своей БД на API взаимодействия с веб-сайтом?

    Это страница просмотра статуса отправленного с веб-сайта сообщения. При отправке с сайта, уведомление о доставке смс не может быть направлено на телефон и его направляют на сайт.
    На страницу просмотра статуса посетитель попадает автоматически после отправки смс-сообщения и может узнать, дошло ли его сообщение до адресата сразу или нет.
    Как я понимаю, страница с статусом сообщения доступна лишь небольшой период времени. Внутренний срок жизни смс (время, которое оператор пытается отправить смс на телефон) ограничен одной неделей, так что дольше недели страница статуса сообщения жить не может. По-моему ее удаляют через несколько часов и только тем поисковикам, которые “прослушивают” адреса посещаемых страниц, удается успеть зайти на страницу статуса.

  • 3. 28th July 2011, 00:09 // Читатель player1 написал:

    >На страницу просмотра статуса посетитель попадает автоматически после >отправки смс-сообщения и может узнать, дошло ли его сообщение до адресата >сразу или нет.
    Сразу есть решение по отрезке “ловких поисковиков” – на стороне сервера запоминать ip, с которого СМС была отправлена и отдавать страницу статуса только на этот ip.

    Зачем хранить ее неделю, также непонятно, т.к. история отправленных сообщений как бы не ведется для конечных пользователей.

    По поводу хешей и добывания ссылок из яндекс-снифферов против брутфорса URI – тут я полностью с вами согласен. На состав URI, каюсь, не посмотрел.
    Версии выглядят вполне правдоподобно.

    Еще один довод в пользу отказа от всевозможных “улучшителей” серфинга от поисковых систем.

  • 4. 28th July 2011, 10:41 // Читатель dign написал:

    Надо быть совсем наивным, пользуясь интернетом считать, что ваши передаваемые данные защищены. Да они защищены, но от рядовых мошенников.

    Но спасибо новостям, теперь при некоторых операциях в интернете буду отключать плагины в Мозиле или буду пользоваться Оперой (она, вроде, статистику на сервера не шлет).

    Если кому интересно можно создать несколько профилей для Мозилы. Например в одном профиле работают плагины, а в другом нет. Точно как это делается я не помню, но в Яндексе вы это найдете.

  • 5. 28th July 2011, 13:09 // Читатель jno написал:

    > Да они защищены, но от рядовых мошенников.

    А есть ещё мошенники инфраструктурные и государственные…
    :)

  • 6. 28th July 2011, 13:11 // Читатель jno написал:

    > можно создать несколько профилей для Мозилы

    укакзать ключик -ProfileManager (для форточек – в свойствах ярлыка где-то)

  • 7. 28th July 2011, 21:04 // Читатель kaschey написал:

    “буду пользоваться Оперой”

    Все бесплатные браузеры одинаковы, все они статистику продают. Иначе деньги-то на разработку откуда?

  • 8. 29th July 2011, 13:35 // Читатель jno написал:

    > все они статистику продают

    за базар ответить готовы?

  • 9. 29th July 2011, 14:04 // Читатель kaschey написал:

    А да, IE, пока не попался ещё :-)
    Так что пока не все :-)

  • 10. 29th July 2011, 17:31 // Читатель jno написал:

    Положим, та же Опера финансируется в основном производителями железа, куда ставят её “мини”…

    Мозиллу кормят корпорации: https://secure.wikimedia.org/wikipedia/en/wiki/Mozilla_Foundation#Financing http://openeducationnews.org/2010/01/05/mozilla-foundation-funding/

    и специали фюр дихь: http://forum.amurworld.com/lofiversion/index.php/t55404.html :)

  • 11. 30th July 2011, 22:56 // Читатель kaschey написал:

    jno вы либо очень наивный, либо … тролль, которому надо всегда спорить, по делу и без…

    Ни один бизнесмен ещё никогда не разбрасывается деньгами за просто так. Не для того его подчиненные по 10 часов в день пашут, чтобы кто-то, где-то делал что-то, ради какой-то высокой идеи. Из любого вложения всегда извлекается выгода и по возможности максимальная (а не для самоокупаемости).

    Позиция поисковика по умолчанию в Фоксе не стоит вложенных 70 мегабаксов. Это отмаза для лохов.

  • 12. 30th July 2011, 23:17 // Читатель jno написал:

    kaschey, а Вы школотой зачем прикидываетесь?
    или не прикидываетесь? упс…

  • 13. 31st July 2011, 04:36 // Читатель lamo4ok написал:

    Абсолютно верно, жаль только что ваше, мое или чье-то еще мнение вряд ли что-то значит в этой ситуации.