“Яндекс.Навигатор” и утечка разговоров

Сообщают, что приложение “Яндекс.Навигатор” записывало звук в потоковом режиме, фактически, работая диктофоном. “Яндекс” признаётся, что такая “недокументированная функция” – всего лишь следствие принятого в компании метода разработки программных продуктов (это что-то вроде варианта Agile, как я понимаю, но когда “в продакшн” вываливают всё что угодно, лишь бы взятый с потолка срок сдачи не подвинуть). Между тем, интеллектуальный диктофон, активирующий запись по ключевым словам (а яндексовское приложение, как они сами говорят, использует запись звука для получения голосовых команд) – очень удобная шпионская штука: пишет только то, что заказывали. Список актуальных ключевых слов может скачиваться с сервера.

Если на клиенте есть словарь и хорошая функция распознавания речи, то результат записи можно передавать в центр сбора и обработки не в виде бинарного потока звукозаписи, а в текстовой расшифровке. Текстовое представление, при условии использования синхронных словарей на клиенте и сервере, позволяет эффективно кодировать записанные фразы. Получается что-то вроде телеграммы, для передачи которой требуется буквально несколько байтов. Эти байты легко спрятать в легитимном трафике. Сложности составляет маскировка словаря на клиенте. Вдруг, кто-то разберёт приложение и обнаружит подозрительный словарь, содержащий не только голосовые команды. С другой стороны, такие “пользовательские разоблачения” сейчас не особенно беспокоят даже самих пользователей, что уж говорить о компаниях-разработчиках, которым вообще всё равно.

Отдельная полезная функция – известно, где находится говорящий в данный момент. Такая замечательная система смогла бы отвечать на следующие запросы: “где находятся пользователи, обсуждающие пролёт НЛО?”. “Пролёт НЛО” отдельно описывается в виде “семантического фильтра”, с набором слов и грамматических конструкций. Естественно, НЛО можно заменить на другие интересные объекты и явления.

()

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 3

  • 1. 9th September 2015, 14:24 // Читатель sarin написал:

    текстовая расшифровка невольно утратит почти всю возможную информацию. лучше разработать хороший, для этих целей, алгоритм сжатия аудио. а то ведь не известно заранее на каком языке, например, общаются отслеживаемые. для глобального покрытия придётся учесть все возможные языки. вот китайский язык, например. иероглиф один, а произносят его в разных районах совсем по-разному.

    при этом количество звуков и звукосочетаний которые люди используют в речи повсеместно, на всей Земле, ограниченно. ну и вообще очевидно, что информационная энтропия человеческой речи близка к энтропии текста на человеческом языке, следовательно должна жаться примерно так-же хорошо.

  • 2. 9th September 2015, 14:54 // Александр Венедюхин ответил:

    Собственно, фонетическое письмо и есть попытка такого сжатия. Но использование словаря позволяет сжимать звуки до значений их сочетаний, то есть, сжимаем словами, это эффективнее.

  • 3. 10th September 2015, 04:41 // Читатель зашел в гости написал:

    почему не известно, на каком языке говорят? у каждого языка есть своя “сигнатура”, уникальная комбинация гласных/согласных, ударений, интонаций, ритма, и.т.д. Финский, например, даже я, тугоухий, мгновенно выделяю из “белого шума” толпы, хотя практически не говорю на этом языке. А специалист вот так, на слух, выделит десятки языков.
    А когда язык опознан, тогда и включается в работу соответствующий софт. Причем, для обучения машины не нужен специалист-носитель языка, достаточно аборигену начитать на диктофон набор стандартных фраз, чтобы снять эту самую “сигнатуру”. Да и аборигенов, в общем-то уже и не нужно: в сети хранятся миллионы звуковых файлов с соответствующими комментариями. Взять голливудские фильмы, как стандарт: тут вам и набор стандартных фраз, и идиомы – все, что хочешь. Бесплатно, в любых обьемах.