Базы авиаперелётов и идентификация смартфонов

BookКое-что о возможной практике анализа больших массивов данных, собранных из разных источников. Предположим, что у АНБ есть списки пассажиров самолётов гражданской авиации, международных рейсов. Существуют общие базы, к которым, для АНБ, не так трудно получить доступ. Для списка ведётся история. То есть, можно построить представление, где каждому пассажиру (идентифицируется с точностью до имени/фамилии) соответствует последовательность его перелётов по странам, сопоставленная с датами, конечно.

Теперь возьмём базу обращений смартфонов (и других персональных мобильных устройств) через Интернет к серверам, например Google и Apple. Такие обращения содержат идентификатор устройства, а также данные о местоположении аппарата (если вдруг координат нет, то дополняем сведениями из базы IP-геолокации, по IP – источнику обращения). Накопленная история позволяет построить последовательности перемещения аппаратов между странами.

Думаю, дальнейший ход понятен: последовательности стран из базы перелётов и базы смартфонов – сопоставляются, с учётом даты. Несмотря на то, что пассажиров у авиакомпаний очень много, а перелёты разные. При использовании в качестве “ключа” последовательности из трёх-пяти перелётов – всякая неоднозначность исчезнет, за исключением, конечно, тех пассажиров, которые действительно летают группой (это тоже важная информация). То есть, в результате получаем соответствие “идентификатор смартфона – имя/фамилия”, для пользователей из разных стран мира, без необходимости доступа к базам операторов связи.

Обработка проводится автоматически, для всех доступных данных по персонам. Сюда же включаются базы по другим видам транспорта, всё, до чего можно дотянуться, а дотянуться в наше информатизированное время можно много до чего. В подобном анализе только массовость и имеет смысл. Интересные подзадачи: имена, фамилии могут быть записаны разным способом, нужно учитывать возможное расстояние между вариантами записи, чтобы автоматически склеить выборки, относящиеся к одному лицу; смартфоны бывают разные, для повышения точности разумно использовать трафик от популярных приложений (уже были сообщения про игру Angry Birds, которая использовалась подобным образом).

()

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 5

  • 1. 14th February 2014, 17:36 // Читатель jno написал:

    и ЖД тоже нынче по паспорту…

    короче, ездить надо с отдельной трубкой :)
    пока номер телефона не передаётся, а сами тушки при продаже не “персонализируются” – пользуйтесь, люди!

  • 2. 14th February 2014, 21:59 // Читатель pl1 написал:

    Не с отдельной трубкой, а с уникальной трубкой на каждую поездку.
    В противном случае в базе окажется та самая отдельная, привязанная к ФИО.

  • 3. 15th February 2014, 15:13 // Читатель RedElf написал:

    Ну так и пусть оказывается. Это будет трубка для перелетов. А рабочий телефон, который есть смысл отслеживать засвечен не будет

  • 4. 17th February 2014, 05:21 // Читатель guest22 написал:

    Еще целесообразнее использовать спецтрубку, в которой можно менять IMEI и т.д., а тракт делать по типу софтрадио(sdr), чтобы не было шаблона идентичного аппаратного обеспечения.

  • 5. 17th February 2014, 15:27 // Читатель jno написал:

    да, “отдельная” – в смысле, для поездки.

    а смена IMEI во многих юрисдикциях – уголовное дело.