“Яндекс.Навигатор” и утечка разговоров
Сообщают, что приложение “Яндекс.Навигатор” записывало звук в потоковом режиме, фактически, работая диктофоном. “Яндекс” признаётся, что такая “недокументированная функция” – всего лишь следствие принятого в компании метода разработки программных продуктов (это что-то вроде варианта Agile, как я понимаю, но когда “в продакшн” вываливают всё что угодно, лишь бы взятый с потолка срок сдачи не подвинуть). Между тем, интеллектуальный диктофон, активирующий запись по ключевым словам (а яндексовское приложение, как они сами говорят, использует запись звука для получения голосовых команд) – очень удобная шпионская штука: пишет только то, что заказывали. Список актуальных ключевых слов может скачиваться с сервера.
Если на клиенте есть словарь и хорошая функция распознавания речи, то результат записи можно передавать в центр сбора и обработки не в виде бинарного потока звукозаписи, а в текстовой расшифровке. Текстовое представление, при условии использования синхронных словарей на клиенте и сервере, позволяет эффективно кодировать записанные фразы. Получается что-то вроде телеграммы, для передачи которой требуется буквально несколько байтов. Эти байты легко спрятать в легитимном трафике. Сложности составляет маскировка словаря на клиенте. Вдруг, кто-то разберёт приложение и обнаружит подозрительный словарь, содержащий не только голосовые команды. С другой стороны, такие “пользовательские разоблачения” сейчас не особенно беспокоят даже самих пользователей, что уж говорить о компаниях-разработчиках, которым вообще всё равно.
Отдельная полезная функция – известно, где находится говорящий в данный момент. Такая замечательная система смогла бы отвечать на следующие запросы: “где находятся пользователи, обсуждающие пролёт НЛО?”. “Пролёт НЛО” отдельно описывается в виде “семантического фильтра”, с набором слов и грамматических конструкций. Естественно, НЛО можно заменить на другие интересные объекты и явления.
Адрес записки: https://dxdt.ru/2015/09/09/7649/
Похожие записки:
- CVE-2024-3661 (TunnelVision) и "уязвимость" всех VPN
- Квантовое время и частоты
- VPN и DNS-сервисы с ECS: утечка сведений об адресах
- Сервис проверки настроек веб-узлов
- Технократический юмор: антиомоглифический инвариант
- Взлом Twitter и влияние на офлайн
- Развитие автоматических "говорилок" (чат-ботов)
- TLS в виртуальных машинах и извлечение ключей хостингом
- Квантовые компьютеры и аксиома непрерывности
- Экспериментальный сервер TLS 1.3 - отключение
- Доверенные программы для обмена сообщениями
Комментарии читателей блога: 3
1. 9th September 2015, 14:24 // Читатель sarin написал:
текстовая расшифровка невольно утратит почти всю возможную информацию. лучше разработать хороший, для этих целей, алгоритм сжатия аудио. а то ведь не известно заранее на каком языке, например, общаются отслеживаемые. для глобального покрытия придётся учесть все возможные языки. вот китайский язык, например. иероглиф один, а произносят его в разных районах совсем по-разному.
при этом количество звуков и звукосочетаний которые люди используют в речи повсеместно, на всей Земле, ограниченно. ну и вообще очевидно, что информационная энтропия человеческой речи близка к энтропии текста на человеческом языке, следовательно должна жаться примерно так-же хорошо.
2. 9th September 2015, 14:54 // Александр Венедюхин:
Собственно, фонетическое письмо и есть попытка такого сжатия. Но использование словаря позволяет сжимать звуки до значений их сочетаний, то есть, сжимаем словами, это эффективнее.
3. 10th September 2015, 04:41 // Читатель зашел в гости написал:
почему не известно, на каком языке говорят? у каждого языка есть своя “сигнатура”, уникальная комбинация гласных/согласных, ударений, интонаций, ритма, и.т.д. Финский, например, даже я, тугоухий, мгновенно выделяю из “белого шума” толпы, хотя практически не говорю на этом языке. А специалист вот так, на слух, выделит десятки языков.
А когда язык опознан, тогда и включается в работу соответствующий софт. Причем, для обучения машины не нужен специалист-носитель языка, достаточно аборигену начитать на диктофон набор стандартных фраз, чтобы снять эту самую “сигнатуру”. Да и аборигенов, в общем-то уже и не нужно: в сети хранятся миллионы звуковых файлов с соответствующими комментариями. Взять голливудские фильмы, как стандарт: тут вам и набор стандартных фраз, и идиомы – все, что хочешь. Бесплатно, в любых обьемах.