Деанонимизация данных анализа ДНК
Анонимизация больших объёмов данных, которые собирались для конкретных персон, представляет большую проблему. Особенно, если данные достаточно подробные, уникальные и их много. В недавно опубликованной работе исследователи показывают, что публично доступные “анонимизированные” базы “расшифровок” человеческой ДНК, собранные различными проектами, не только оказываются пригодными для эффективной деанонимизации, но ещё и позволяют идентифицировать людей, которые образцов ДНК ни в какой проект не сдавали (но, понятно, где-то такой образец оставили). Данные ДНК могут показаться разрозненными, но это совсем не так, если смотреть на них с точки зрения биологических механизмов. Интересно, что если наложить на набор данных ДНК генеалогические деревья, сопоставив родственников по фрагментам кода, то исходный набор “анонимных” данных тут же теряет всю свою “вариативность”. Если у вас есть база данных с ФИО и отношениями родства, то достаточно подставить в дерево хотя бы одну реальную персону, как все остальные узлы тут же деанонимизируются самым очевидным образом. При неполных данных – всё равно можно уверенно перескакивать между ветками, обнаруживая двоюродную и троюродную родню.
В работе по ссылке – показано, что механизм наследования достаточно силён для того, чтобы покрыть практически всю популяцию, собрав ДНК лишь у небольшой части людей. И речь тут идёт о том, что публичные “анонимизированные” базы позволяют идентифицировать персон, ДНК которых в базе отсутствует, но нашлись родственники разной степени “отдалённости”. Цитата:
“Используя конкретную модель, мы можем предсказать, что база данных с записями о приблизительно 3 млн жителей США европейского происхождения (2% соответствующего взрослого населения), позволяет найти для 99% населения данной этнической принадлежности как минимум одного троюродного родственника, а для 65% – как минимум одного двоюродного”.
Чтобы сопоставить реальных персон записям в базах ДНК, исследователи используют год рождения, примерное место проживания – это позволяет резко улучшить точность. Собственно, задача складывается в чисто комбинаторную, а комбинаторные соображения очень часто помогают убрать всё лишнее и найти реальную структуру, стоящую за данными. Я довольно давно писал на сходную тему, правда, в привязке к “анонимизированным” данным геолокации.
Адрес записки: https://dxdt.ru/2018/10/15/8623/
Похожие записки:
- Мониторинг жонглёров
- Утечки данных YubiKey/Infineon
- Реплика: возможный доступ приложений "Яндекса" к OBD автомобиля
- TLS в виртуальных машинах и извлечение ключей хостингом
- Сколько лет Интернету
- Вывод полей ECH на tls13.1d.pw
- Утечка DNS-запросов в ExpressVPN
- Квантовое время и частоты
- Метаинформация, мессенджеры и цепочки событий в трафике
- Офтопик: антенны в английском языке
- Техническое: опция, отклоняющая TLS-соединение в Nginx
Комментарии читателей блога: 3
1. 16th October 2018, 10:02 // Читатель Kunis написал:
Собственно, не так давно нашли подобным образом одного преступника. По ДНК с места преступления нашли родственников убийцы, а там уж нашли и самого чисто по соображениям кто был неподалёку.
2. 28th October 2018, 10:45 // Читатель fdsc написал:
> обнаруживая двюродную
Двоюродную
3. 28th October 2018, 20:29 // Александр Венедюхин:
Поправил. Спасибо!
Написать комментарий