Исторические “распознавалки” речи
Кстати, первые вычислительные системы распознавания речи конструировали ещё где-то в 60-х годах прошлого века. С тем чтобы решить исключительно практическую в своём роде задачу эффективного использования мощностей аудиозаписи для систем прослушивания переговоров. Задача вот в чём: есть возможность прослушивать некий важный канал речевой связи (организовали, скажем, утечку); канал используется интенсивно, а полезные сведения могут содержаться только в небольшой части переговоров, которые и нужно записывать. Автомат мог бы распознавать голоса участников переговоров, узнавать важных персон и включать запись только когда именно они общаются.
Экономится магнитная лента. Ну или там проволока, не так важно, что именно. Для 60-х это весьма важная экономия, потому что записывающее устройство установлено, например, прямо в линии, в каком-нибудь колодце или туннеле, забирать и заменять кассеты – то ещё приключение. Время записи принципиально мало, потому что сверхкомпактных микроэлектронных ОЗУ ещё нет, а проволока (ну, хорошо, лента) – она очень быстро заканчивается.
Подобную систему распознавания, – или точнее её будет называть системой “узнавания”, – работающую в качестве триггера, в теории можно сделать чисто аналоговой. Но вот чтобы свести к разумному значению количество ложных срабатываний нужно отслеживать и анализировать звук на некотором временном интервале, то есть, просто по одному “срезу” сигналов в фильтрах качественно идентифицировать говорящего не получается. (Останавливать запись, наверное, можно, используя стандартные командные сигналы, которые присутствуют в канале.) Реальная эффективность подобных систем не ясна. Часто рассказывают, что большие по размерам опытные образцы не справлялись с задачей: триггер срабатывал слишком поздно – важный человек уже заканчивал разговор и вешал трубку.
Сейчас, когда компьютерное распознавание речи достигло нужных высот, проблема с временем записи потеряла актуальность: записывать речь в компактное устройство можно месяцами и годами, всю подряд. И при необходимости выбирать нужный фрагмент позже.
Адрес записки: https://dxdt.ru/2011/01/18/3501/
Похожие записки:
- Техническое: связь SCT-меток с логами Certificate Transparency
- Encrypted Client Hello и браузеры Google
- Вычислимые опасности ИИ
- ML-KEM на тестовом сервере TLS
- Версия "огненной машины" из манускрипта
- Работа GPS и коррекция по данным многих устройств
- Нормализация символов Unicode и доменные имена
- "Интеллект" LLM в повторах
- Метки в текстах LLM и целевое влияние на результат
- Реплика: программные "демультиплексоры" протоколов уровня приложений
- Элементарные числа в ML-KEM
Комментарии читателей блога: 5
1 <t> // 19th January 2011, 09:26 // Читатель Roman написал:
“Часто рассказывают, что большие по размерам опытные образцы не справлялись с задачей: триггер срабатывал слишком поздно ? важный человек уже заканчивал разговор и вешал трубку.”
Но ведь эту проблему можно было бы решить просто. Организовать что-то наподобие буфера – отдельная зацикленная лента, которая пишет последние 10 минут (например). Если человек нужный, то содержимое этой ленты сбрасывается на основную, иначе перезаписывается дальше поверх.
основная проблема, наверное, все же в том, что системы были очень громоздкими и не надежными.
2 <t> // 19th January 2011, 11:03 // Читатель arcman написал:
> “триггер срабатывал слишком поздно ? важный человек уже заканчивал разговор и вешал трубку.”
Байка – любой инженер сразу найдёт решение как проблему побороть.
Пишешь все разговоры – после опознания либо оставляешь, либо отматываешь на начало.
3 <t> // 19th January 2011, 16:30 // Читатель Безумный Программи… написал:
Насколько я понимаю, не сложно отследить “важный” звонок по набираемому номеру (если устройство на стороне звонящего). Но это, конечно, не панацея.
4 <t> // 19th January 2011, 21:24 // Читатель kaschey написал:
Такие системы всегда будут актуальны. Ведь время и штат аналитиков ограничены. А технически эту проблему не решить, хоть китайцы и старались :-)
5 <t> // 6th August 2011, 12:44 // Читатель Kluwert написал:
“когда компьютерное распознавание речи достигло нужных высот”
Я видимо что-то пропустил? Когда это оно успело достигнуть “нужных высот”?