Перевод речи в текст
Возвращаясь к сегодняшней дискуссии по поводу совершенства систем перевода разговорной речи в текст хочу заметить, что:
1. Летом 2002 года я помогал настраивать диктофон фирмы Olympus, так вот, он тогда уже поставлялся с софтом, позволяющим переводить английский из wav формата в файл txt. Качество работы алгоритма никто не проверял, т.к. кроме интервью с Ферранте для Университетской газеты (которое я потом воспроизвел по своим наброскам) никто ничего в него на английском не вещал (по крайней мере при мне).
2. Есть одна известная радиостанция «Эхо Москвы», которая примерно через час выкладывает распечатки часовых интервью (2-4 человека, включая ведущих) у себя на сайте. Что-то мне подсказывает, что делается это автоматически с последующей правкой-на-лету редактором.
3. Мне кажется, не плохо было бы «попробовать на зуб» результаты работы современных англоязычных систем. Тем более они уже начинают встраиваться в общедоступные приложения:
Google Elections Video Search (поиск в видео, используя перевод аудиодорожки в текст).
Тут я сразу могу нафантазировать даже исследования, например, зависимость качества распознавания в ситуациях искажения речи, которое оценивается конечно же, по критерию PESQ. Найти соответствующие англоязычные тесты не проблема.
4. Еще раз повторюсь, что решение именно этой задачи обработки речи, находится на стыке ЦОС и лингвистики. Это отдельная область, которая до предела коммерциализована. Пытаться изобретать здесь велосипед (защищать дипломы и диссертации) можно еще лет 50, но стоит ли?
Закидайте меня тухлыми помидорами в комментариях уважаемая группа по обработке речи...
Коммент.(3)
На тему этого разговора есть несколько обзорных статей, которыен мне показались интересными:
www.auditech.ru/art1.htm
На этом сайте есть обзор речевых баз для русского языка и много интересных материалов по речевым технологиям.
В одной из статей говорится, например, следующее: «В настоящее время в среде „речевиков“ (а тем более „неречевиков“)сложилось представление, что конечной и высшей целью явялется создание именно „фонетической печатающей машинки“, а универсальным методом решения всех речевых проблем являются скрытые Марковские модели (HMM).» Далее идет анализ этих утверждений.
Помню была программа когда — то, называлась «Змей Горыныч», она речь переводила в слова. Это не ее аналог?
реновая у тебя программа, много мусорая, а слова, кроме цифр ничего не воспроизводит...