Исторические “распознавалки” речи

Кстати, первые вычислительные системы распознавания речи конструировали ещё где-то в 60-х годах прошлого века. С тем чтобы решить исключительно практическую в своём роде задачу эффективного использования мощностей аудиозаписи для систем прослушивания переговоров. Задача вот в чём: есть возможность прослушивать некий важный канал речевой связи (организовали, скажем, утечку); канал используется интенсивно, а полезные сведения могут содержаться только в небольшой части переговоров, которые и нужно записывать. Автомат мог бы распознавать голоса участников переговоров, узнавать важных персон и включать запись только когда именно они общаются.

Экономится магнитная лента. Ну или там проволока, не так важно, что именно. Для 60-х это весьма важная экономия, потому что записывающее устройство установлено, например, прямо в линии, в каком-нибудь колодце или туннеле, забирать и заменять кассеты – то ещё приключение. Время записи принципиально мало, потому что сверхкомпактных микроэлектронных ОЗУ ещё нет, а проволока (ну, хорошо, лента) – она очень быстро заканчивается.

Подобную систему распознавания, – или точнее её будет называть системой “узнавания”, – работающую в качестве триггера, в теории можно сделать чисто аналоговой. Но вот чтобы свести к разумному значению количество ложных срабатываний нужно отслеживать и анализировать звук на некотором временном интервале, то есть, просто по одному “срезу” сигналов в фильтрах качественно идентифицировать говорящего не получается. (Останавливать запись, наверное, можно, используя стандартные командные сигналы, которые присутствуют в канале.) Реальная эффективность подобных систем не ясна. Часто рассказывают, что большие по размерам опытные образцы не справлялись с задачей: триггер срабатывал слишком поздно – важный человек уже заканчивал разговор и вешал трубку.

Сейчас, когда компьютерное распознавание речи достигло нужных высот, проблема с временем записи потеряла актуальность: записывать речь в компактное устройство можно месяцами и годами, всю подряд. И при необходимости выбирать нужный фрагмент позже.

Адрес записки: https://dxdt.ru/2011/01/18/3501/

Похожие записки:



Далее - мнения и дискуссии

(Сообщения ниже добавляются читателями сайта, через форму, расположенную в конце страницы.)

Комментарии читателей блога: 5

  • 1 <t> // 19th January 2011, 09:26 // Читатель Roman написал:

    “Часто рассказывают, что большие по размерам опытные образцы не справлялись с задачей: триггер срабатывал слишком поздно ? важный человек уже заканчивал разговор и вешал трубку.”
    Но ведь эту проблему можно было бы решить просто. Организовать что-то наподобие буфера – отдельная зацикленная лента, которая пишет последние 10 минут (например). Если человек нужный, то содержимое этой ленты сбрасывается на основную, иначе перезаписывается дальше поверх.
    основная проблема, наверное, все же в том, что системы были очень громоздкими и не надежными.

  • 2 <t> // 19th January 2011, 11:03 // Читатель arcman написал:

    > “триггер срабатывал слишком поздно ? важный человек уже заканчивал разговор и вешал трубку.”

    Байка – любой инженер сразу найдёт решение как проблему побороть.
    Пишешь все разговоры – после опознания либо оставляешь, либо отматываешь на начало.

  • 3 <t> // 19th January 2011, 16:30 // Читатель Безумный Программи… написал:

    Насколько я понимаю, не сложно отследить “важный” звонок по набираемому номеру (если устройство на стороне звонящего). Но это, конечно, не панацея.

  • 4 <t> // 19th January 2011, 21:24 // Читатель kaschey написал:

    Такие системы всегда будут актуальны. Ведь время и штат аналитиков ограничены. А технически эту проблему не решить, хоть китайцы и старались :-)

  • 5 <t> // 6th August 2011, 12:44 // Читатель Kluwert написал:

    “когда компьютерное распознавание речи достигло нужных высот”

    Я видимо что-то пропустил? Когда это оно успело достигнуть “нужных высот”?