luan an tien si, cac mo hinh, va giai thuat, nhan dang lenh, giong noi ngan, dua tren cac bien doi, pho tin hieu, dau vao, (Модели и алгоритмы, распознавания коротких, речевых команд на, основе пробных спектральных, преобразований входного сигнала ), nguyen chi thien

LUẬN ÁN TIẾN SĨ (Нгуен Чи Тхиен )

CÁC MÔ HÌNH VÀ GIẢI THUẬT NHẬN DẠNG LỆNH GIỌNG NÓI NGẮN DỰA TRÊN CÁC BIẾN ĐỔI PHỔ TÍN HIỆU ĐẦU VÀO (Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала )

NCS: Nguyễn Chí Thiện - NHD: Giáo sư, tiến sĩ khoa học Dvoenko S.D. - Chuyên ngành 05.13.18 - Mô hình hóa toán học, phương pháp số, và tổ hợp các chương trình

ВВЕДЕНИЕ В

настоящее время сохраняется большой интерес исследователей к задачам компьютерной обработки речи, таким как их кодирование (Gibson [40], Chu [34]), генерация (Лобанов [18], Taylor [67]), а также распознавание (Woelfel [75], Neustein [57]). Речь является главным объектом применения компьютеров для их обработки. Широко известны системы кодирования речи в телемеханике, генерации речи с текста, а что касается программ автоматического ввода речью, то их использование стало массовым. Особый интерес к компьютерной обработке именно речи в значительной мере определяется тем фактом, что это естественный вид взаимодействия между людьми, а также между человеком и машиной.

Речь представлена в компьютере как последовательность скалярных или векторных значений, и эта совокупность упорядочена вдоль оси временной переменной. Эту временную последовательность принято назвать речевым сигналом. Одной из известных задач обработки речевых сигналов является задача распознавания речевых команд. В данной задаче необходимо принять решение о том, к какому классу относится речевой сигнал, где классом назовём множество разных произношений одной и той же команды. В классической теории распознавания образов [5,9,26] объекты, подлежащие распознаванию, описываются векторами фиксированной размерности и представляются точками в пространстве своих характеристик. Однако в задаче распознавания речевых команд фиксация размерности сигналов не вполне естественна. Например, одну и ту же речевую команду диктор произносит с разными скоростями.

В результате, длины записанных речевых сигналов одной команды являются различными. Проблема сравнения речевых сигналов с разной длиной сначала решается методом динамического программирования [6,63,71]. Для этого 5 метода выполняется выравнивание сигналов по длине. В последнее двадцатилетие для решения проблемы сравнения речевых сигналов стало популярно использование метода скрытых марковских моделей [14,19,61]. В этом методе речевой сигнал представлен в виде структурированного набора, состоящего из не фиксированного заранее числа “элементарных” объектов, которые в свою очередь уже кодируются конечномерными векторами [19].

Речевые сигналы характеризуются большой вариабельностью. Они отличаются не только по длине, но и по высоте тона, тембру, которые зависят от характеристики голоса дикторов. В построении систем распознавания речевых команд для того, чтобы обеспечить репрезентативность обучающей выборки необходимо собрать речевые сигналы от многих разных дикторов. Собрание большого количества обучающих данных для необходимого набора речевых команд не всегда оказывается возможным, особенно в случае персонального пользователя системы распознавания.

Учитывая трудность в собрании обучающих речевых сигналов, в данной работе предлагается способ решения задачи распознавания речевых команд, который компенсирует малую обучающую выборку использованием имеющегося опыта из разных областей обработки речевых сигналов: кодирования, преобразования и распознавания. Когда обучающая выборка мала, построенная система распознавания дикторозависима (Fontaine [37]), т. е. она будет распознавать речевые команды ôсвоих” пользователей (людей, которые обучали эту систему) с точностью распознавания, которая будет выше, чем точность, взятая по ôчужим” пользователям. Поэтому для улучшения качества распознавания речевых команд в случае ôчужого” пользователя предлагают преобразование речевых сигналов ôчужого” пользователя к речевым сигналам ôсвоего” пользователя перед тем, как подать сигнал на вход алгоритма распознавания.

Такая идея встречается в [13], где преобразование и 6 распознавание выполняются с помощью функций расстояния. В данной работе преобразование речевых сигналов и их распознавание реализованы с помощью функций правдоподобия (Pratt [60]). На практике результат распознавания сигналов как своего, так и чужого дикторов дополнительно ухудшается шумом. Обучающие речевые сигналы обычно являются незашумленными, а тестирующие речевые сигналы оказываются зашумленными. Присутствие шума приводит к сильному отклонению спектров тестирующих речевых сигналов от спектров их эталонов в обучающей выборке. Поэтому качество результата распознавания на фоне шумов резко падает (Wolfe [76]). Для уменьшения отклонений спектров тестирующих зашумленных речевых сигналов от спектров их незашумленных эталонов в обучающей выборке были предложены разные способы (Haykin [44], Hung [48], Vaseghi [70]). Самый популярный подход – это удаление из спектров зашумленных сигналов шумовой составляющей. Такой подход реализован в методе спектрального вычитания (spectral subtraction) [70] и методе фильтрации Винера (Wiener) [44].

Недостаток этих методов заключается в том, что перед удалением шума из спектров речевых сигналов должна быть известна априорная информация о шуме. Сам процесс выявления априорной информации о шуме вызывает трудности. Кроме того, если шум нестационарный, то его удаление сильно искажает спектр исходного сигнала, а в худшем случае нарушает формантную структуру его спектра. Существует и другой подход. В работе Hung [48] был предложен метод, заключающийся в умножении значений отсчетов амплитудного спектра фрагментов каждого речевого сигнала на весовой параметр. Цель этого метода – подчеркнуть спектральное различие между речевыми и неречевыми (паузы) фрагментами сигнала. Этот метод был предложен для распознавания слитной речи. Для задачи распознавания отдельных речевых ко- 7 манд этот метод не подходит. Необходимо найти метод, применимый к задаче распознавания отдельных речевых команд. Поэтому необходимо обобщить уже имеющийся опыт из различных областей обработки речевых сигналов (кодирование, преобразование, распознавание) и применить его для решения актуальной задачи распознавания речевых команд, предложив новые и улучшенные подходы, обладающие элементами новизны на каждой из этапов ее решения. Если спектр зашумленного сигнала сильно отличается от спектра незашумленного сигнала, то очевидно, что степень связи таких спектров может оказаться достаточно малой. Для увеличения степени связи в данной работе предлагается увеличивать значения отсчетов амплитудных спектров обоих сигналов на константу. Цель данной работы – это решение задачи распознавания речевых команд. Для достижения указанной цели в данной работе поставлены следующие задачи:

1. сформулировать и исследовать задачу идентификации модели речевого сигнала с целью адекватного восприятия;

2. решить задачу распознавания речевых команд при недостаточном объеме обучающих данных;

3. решить задачу распознавания речевых команд на фоне шумов;

4. оценить предложенные решения процедурой скользящего контроля. Данная работа состоит из введения, четырех глав и заключения. В первой главе рассмотрены основные задачи обработки речевых сигналов. Во второй главе сформулирована и исследована задача идентификации модели речевого сигнала с целью адекватного восприятия, используя имеющийся опыт из разных областей обработки речевых сигналов. 8 В третьей главе описывается решение задачи распознавания речевых команд с недостаточным объемом обучающих данных, используя преобразование сигналов. В четвертой главе описывается решение задачи распознавания речевых команд на фоне шумов, используя увеличение значений отсчетов амплитудных спектров речевых сигналов на константу. Кроме того, в каждой главе, исключая первую, описывается экспериментальное исследование по распознаванию одиннадцати речевых команд с помощью разработанных решений. Выполнены эксперименты по схемам скользящего контроля [7,19], чтобы проверить качество распознавания речевых команд предложенными решениями. Проводится анализ полученных результатов и на их основе делаются выводы о предложенных в данной работе решениях.

1 ЗАДАЧИ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

1.1 Кодирование речевого сигнала Кодирование представляет собой процесс сжатия речевого сигнала, устранение его избыточности, сохраняя его приемлемое качество.

1.1.1 Получение кратковременных амплитудных спектров из речевого сигнала Исследования в области физиологического речеобразования и психофизического восприятия речи [27,28] показывают, что сообщение в речевом сигнале передается изменением кратковременного амплитудного спектра. Изменение кратковременного амплитудного спектра отражает способ и место образования звука в процессе артикуляции [16]. Поэтому имеет смысл моделировать речевой сигнал последовательностью кратковременных амплитудных спектров. В данном разделе рассматривается получение модели речевого сигнала в виде последовательности кратковременных амплитудных спектров.

-------------------------------------------------

ОГЛАВЛЕНИЕ ВВЕДЕНИЕ

1 ЗАДАЧИ ОБРАБОТКИ РЕЧЕВОГО СИГНАЛА

1.1 Кодирование речевого сигнала

1.1.1 Получение кратковременных амплитудных спектров из речевого сигнала

1.1.2 Построение мел-частотных кепстральных коэффициентов из спектра сигнала

1.2 Преобразование речевых сигналов

1.3 Распознавание речевых сигналов

1.3.1 Байесовский классификатор

1.3.2 Модель скрытой компоненты

1.3.3 Модель наблюдаемой компоненты

1.3.4 Построение двухкомпонентного случайного процесса

1.3.5 Выбор начальных значений параметров модели

1.3.6 Вычисление апостериорного распределения для каждого класса речевых сигналов

1.4 Основные цели и задачи исследования 2 ЗАДАЧА ИДЕНТИФИКАЦИИ МОДЕЛИ РЕЧЕВОГО СИГНАЛА С ЦЕЛЬЮ АДЕКВАТНОГО ВОСПРИЯТИЯ

2.1 Этапы решения задачи идентификации модели речевого сигнала с целью адекватного восприятия

2.2 Обобщенная процедура обработки речевого сигнала

2.3 Задача распознавания речевых команд

2.4 Алгоритм распознавания речевых команд

2.5 Подбор параметров алгоритма распознавания

2.5.1 Процедура подбора параметров алгоритма распознавания

2.5.2 Исследование подбора параметров алгоритма распознавания

2.5.3 Построение модели классов сигналов как смесей гауссовых распределений

2.5.4 Построение модели классов сигналов как двухкомпонентных случайных процессов

2.6 Подбор параметров алгоритма распознавания на основе скользящего контроля

2.6.1 Независимое тестирование алгоритма распознавания

2.6.2 Модифицированная процедура подбора параметров

2.6.3 Исследование подбора параметров алгоритма распознавания модифицированной процедурой

3 ЗАДАЧА РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД ПРИ НЕДОСТАТОЧНОМ ОБЪЕМЕ ОБУЧАЮЩИХ ДАННЫХ

3.1 Влияние объёма и состава обучающей выборки на качество распознавания речевых команд

3.2 Многократный алгоритм распознавания речевых команд

3.3 Подбор значения параметра преобразования в построении многократного алгоритма распознавания речевых команд

3.4 Исследование многократного алгоритма распознавания речевых команд

4 ЗАДАЧА РАСПОЗНАВАНИЯ РЕЧЕВЫХ КОМАНД НА ФОНЕ ШУМОВ

4.1 Увеличение значения отсчетов амплитудных спектров сигналов

4.2 Алгоритм распознавания команд на фоне шумов

4.3 Исследование алгоритма распознавания команд на фоне шумов

4.4 Подбор константы усиления амплитудных спектров с целью улучшения качества их распознавания

4.5 Многократный алгоритм распознавания речевых команд на фоне шумов.

4.6 Исследование многократного алгоритма распознавания команд на фоне шумов

4.7 Комбинирование способов уменьшения влияния шума на качество распознавания речевых сигналов

ЗАКЛЮЧЕНИЕ СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

----------------------------------------------------

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Агашин О.С., Корелин О.Н. Методы цифровой обработки речевого сигнала в задаче распознавания изолированных слов с применением сигнальных процессоров. // Труды Нижегородского государственно-го технического университета им. Р.Е. Алексеева № 4(97). С.32-44.

2. Аттетков А.В., Галкин С.В., Зарубин В.С. Методы оптимизации. М.: Изд-во МГТУ им. Н.Э. Баумана, 2003. 440 с.

3. Аграновский А.В. Теоретические аспекты алгоритмов обработки и классификации речевых сигналов. М.: Изд-во «Радио с связь», 2004. 162 с.

4. Бесекерский В.А. Теория систем автоматического управления: учеб. пособие. — СПб.: Профессия, 2007.

5. Вапник В.Н., Червоненкис А.Я. Теория распознавания образов. Ста-тистические проблемы обучения: учеб. пособие. – М.: Наука, 1974. – 416 с.

6. Винцюк Т.К. Анализ, распознавание и интерпретация речевых сиг-налов. Киев: Наук. думка, 1987. – 264 с.

7. Воронцов К. В. Комбинаторный подход к оценке качества обучае-мых алгоритмов. // Математические вопросы кибернетики / Под ред. О. Б. Лупанов. – М.: Физматлит, 2004. – T. 13. – С. 5–36.

8. Воронцов К. В. Лекции по статистическим (байесовским) алгорит-мам классификации. 39 с.

9. Гмурман В.Е. Теория вероятностей и математическая статистика: учеб. пособие. – 12-ое изд. – М.: Высш. Обр., 2007, 478 с.

10. Двоенко С.Д. Алгоритмы распознавания взаимосвязанных объектов: дис. док. физ-мат. наук. – Тула: Тульский гос. ун-т, 2001. – 200 с.

11. Двоенко С.Д., Копылов А.В., Моттль В.В. Задача распознавания об-разов в массивах взаимосвязанных объектов. Постановка задачи 156 и основные предположения // Автоматика и телемеханика. – 2004. – № 1. – С. 143–158.

12. Жиглявский А. А., Жилинкас А. Г. Методы поиска глобального экс-тремума. М.: Наука, Физматлит, 1991. 247c.

13. Загоруйко Н.Г., Лозовский В.С. Подстройка под диктора при распо-знавании ограниченного набора устных команд // Сборник трудов Института математики СО АН СССР. № 28, 1967.

14. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Ново-сибирск: ИМ СО РАН, 1999. – 270 с.

15. Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: Изд-во РГГУ,

2001. 592с.

16. Колоколов А.С. Обработка сигнала в частотной области при распо-знавании речи. // Проблема управления. № 3, 2006. С.13-18.

17. Котомин А.В. Распознавание речевых команд с использованием сверточных нейтронных сетей. // Наукоемкие информационные тех-нологии. Переславль-Залесский, 2012.

18. Лобанов Б. М., Цирульник Л. И. Компьютерный синтез и клониро-вание речи. Минск: Белорусская Наука, 2008. – 316 стр.

19. Мерков, А. Б. Распознавание образов. Введение в методы статисти-ческого обучения. – Едиториал УРСС, 2011. – 256 с.

20. Мэтьюз Д.Г. Численные методы. Использование MATLAB, 3-е изда-ние.: Пер. с англ. М.: Изд-во «Вильямс», 2001. – 720 с.

21. Нгуен Ч.Т. Оптимизация параметров эвристической модели речевых сигналов с целью улучшения качества их распознавания // Известия ТулГУ. Технические науки. 2014. Вып. 1. С. 44–50.

22. Нгуен Ч.Т. Решение задачи распознавания речевых команд // Извес-тия ТулГУ. Технические науки. Вып. 6. Тула: Изд-во ТулГУ,

2013. Ч. 2. 269 с. С.176-184. 157

23. Нгуен Ч.Т. Решение задачи распознавания речевых команд на фоне шумов // Известия ТулГУ. Технические науки. Вып. 11. Тула: Изд-во ТулГУ, 2013. 400 с. С.241-250.

24. Рабинер Л.Р. Скрытые марковские модели и их применение в из-бранных приложениях при распознавании речи. Тииэр, т. 77, №2,

1989.

25. Савельев И.В. Курс общей физики: Учебное пособие. В 3-х тт. Т. 2. Электричество и магнетизм. Волны. Оптика. 5-е изд., стер. – СПб.: Издательство «Лань», 2006. – 496 с.

26. Ту Дж., Гонсалес Р. Принципы распознавания образов. – М.: Мир,

1978. –414 с.

27. Фант Г. Акустическая теория речеобразования. М.: Наука, 1964.

28. Фланаган Дж. Анализ, синтез, и восприятие речи. М.: Связь, 1968.

29. Acero A., Huang X./ “Speaker and Gender Normalization for Continuous-Density Hidden Markov Models”, in Proc. ICASSP, 1996, Vol. 1, pp 342-345, Atlanta, GA, USA.

30. Alpaydin E. Introduction to machine learning. – Cambridge: MIT, MA,

2004. – 415 p.

31. Bala A. Voice command recognition system based on mfcc and dtw. / Bala A. [et al.] // International Journal of Engineering Science and Tech-nology. Vol. 2 (12), 2010, 7335-7342.

32. Benesty J. Handbook of speech processing. / J. Benesty [et al.] // Springer, 2008. 1159 p.

33. Bishop C.M. Pattern Recognition and Machine Learning – New York: Springer, 2006. 738 p.

34. Chu W. Speech Coding Algorithms: Foundation and Evolution of Stan-dardized Coders. Wiley-Interscience, 2003. P. 592.

35. DAFX: Digital Audio Effects, Second Edition / Ed. by U. Zolzer. West Sussex: John Willey & Sons, 2011. P. 602. 158

36. Dempster A.P., Laird N.M., Rubin D.B. Maximum likelihood from in-complete data via the EM algorithm. // J. Roy. Stat. Soc., vol. 39, no. 1, P.1-38, 1977.

37. Fontaine V., Bourlard H. Speaker-dependent speech recognition based on phone-like units models-application to voice dialling. // Acoustics, Speech, and Signal Processing, 1997. P. 527 – 1530.

38. Ganchev T., Fakotakis N., Kokkinakis G. Comparative evaluation of various MFCC implementations on the speaker verification task. // 10th International Conference on Speech and Computer (SPECOM 2005), Vol. 1, pp. 191–194.

39. Gauvain J.L., Lee C.H. Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains. IEEE Trans. Speech and Audio Process, 1994. 2 (2), 291–298.

40. Gibson J. Mobile Communications Handbook, Third Edition. Taylor & Francis Group. 2013. P. 765.

41. Giuliani D., Gerosa M. Investigating recognition of children s speech. In: Proc. of ICASSP, 2003, Hong Kong, China, pp. II-137–140.

42. Gotzen A., Bernardini N., Arfib D. Traditional implementations of a phase-vocoder: the tricks of the trade // Proceedings of the COST G-6 Conference on Digital Audio Effects , Verona, Italy, December 7-9, 2000.

43. Hasegawa J. M, Alwan A. Speech coding: fundamentals and applications. John Wiley & Sons. 2003. P. 20.

44. Haykin S. Adaptive Filter Theory (4th Edition). Prentice Hall, 2002. P.

936.

45. Hillenbrand J. Acoustic characteristics of American English vowels / J. Hillenbrand [et al.] // The Journal of the Acoustical Society of America, 97(5), 1995. P. 3099 – 3111. 159

46. Huang X., Lee K.F. On speaker-independent, speaker-dependent, and speaker-adaptive speech recognition. IEEE Trans. Speech and Audio Process. 1993. 1 (2), 150–157.

47. Huber J.E., Stathopoulos E.T., Curione G.M., Ash T.A., Johnson K. For-mants of children, women, and men: the effects of vocal intensity varia-tion. // J Acoust Soc Am. 1999 ; Issue 106, P.1532-1542.

48. Hung J. Enhancing the magnitude spectrum of speech features for robust speech recognition // EURASIP Journal on Advances in Signal Process-ing, Volume 2012, Issue 1, P. 1-20.

49. Kamath S. A multi-band spectral subtraction method for enhancing speech corrupted by colored noise./ S Kamath, P Loizou // International Conference on Acoustics, Speech and Signal Processing (ICASSP’02), Orlando, USA, 2002, vol. 4, P. IV–4164.

50. Lieberman P. Speech Physiology, Speech Perception, and Acoustic Pho-netics. Cambridge University Press, 1998. P: 560.

51. Lindasalwa M., Mumtaj B., Elamvazuthi I. Voice Recognition Algorithms using Mel Frequency Cepstral Coefficient (MFCC) and Dynamic Time Warping (DTW) Techniques”, Journal Of Computing, Volume 2, Issue 3, pp 138-143, March 2010.

52. Lee L., Rose L. A frequency warping approach to speaker normalization // IEEE Trans. Speech and Audio Processing, 1998, 6(1):49–60.

53. Lee L., Rose L. Speaker normalization using efficient frequency warping procedures. // In Proc. Int. Conf. Audio, Signal, and Speech Processing, Atlanta, USA, 1996, P.353-356.

54. Maragakis M. G., Potamianos A. Region-based vocal tract length nor-malization for ASR // In Proc. Interspeech-2008, pages 1365–1368. Bris-bane, Australia.

55. Mottl V.V. Pattern Recognition in Spatial Data: A New Method of Seismic Explorations for Oil and Gas in Crystalline Basement Rocks / 160 V.V. Mottl, S.D. Dvoenko, V.B. Levyant, I.B. Muchnik // Proc. 15th ICPR’2000. Spain, Barcelona. – 2000. – Vol. 3. – P. 210–213.

56. Murphy K.P. Machine learning: a probabilistic perspective. MIT Press, Cambridge, MA , 2012, P.1067.

57. Neustein A. Advances in Speech Recognition. Springer, 2010. P. 370.

58. Paliwal K., Lyons J., Wojcicki K. Preference for 20-40 ms window dura-tion in speech analysis // 4th International Conference Signal Processing and Communication Systems (ICSPCS), 13-15 Dec. 2010.

59. Panchapagesan S., Alwan A. Frequency warping for VTLN and speaker adaptation by linear transformation of standard MFCC. // Computer Speech & Language, Volume 23, Issue 1, January 2009, P. 42–64.

60. Pratt J.W. Efficiency of Maximum Likelihood Estimation. // The Annals of Statistics 4 (3), 1976: P: 501–514.

61. Rabiner L., Juang B. Fundamentals of speech recognition. Prentice-Hall, Inc. Upper Saddle River, NJ, USA, 1993. P.507.

62. Sahidullah M., Goutam S. Design, analysis and experimental evaluation of block based transformation in MFCC computation for speaker recogni-tion. // Speech Communication 54 (4), 2012. P. 543–565.

63. Sakoe, H. and Chiba, S., Dynamic programming algorithm optimization for spoken word recognition, IEEE Transactions on Acoustics, Speech and Signal Processing, 26(1) pp. 43– 49, 1978.

64. Scalart P. Speech enhancement based on a priori signal to noise estima-tion./ P Scalart, JV Filho// International Conference on Acoustics, Speech and Signal Processing (ICASSP’96), Atlanta, USA, 1996, vol. 2, P. 629–

632.

65. Shaneh M., Taheri A. Voice Command Recognition System Based on MFCC and VQ Algorithms. // World Academy of Science, Engineering and Technology 57 2009, pp 534-538. 161

66. Sundermann D., Ney H. VTLN-based cross-language voice conversion. // Automatic Speech Recognition and Understanding, 2003. ASRU '03.

2003. P. 676 – 681.

67. Taylor P. Text-to-Speech Synthesis. Cambridge University Press, 2009. P.

626.

68. Tyagi V. , Wellekens C. On desensitizing the Mel-Cepstrum to spurious spectral components for Robust Speech Recognition. // IEEE International Conference on Acoustics, Speech, and Signal Processing, 2005. Proceed-ings. (ICASSP ’05), vol. 1, pp. 529–532.

69. Uebel L. F., Woodland P. C. An investigation into vocal tract length nor-malization // Proc: of the EUROSPEECH’99, Budapest, Hungary, 1999.

70. Vaseghi S.V. Advanced Digital Signal Processing and Noise Reduction, 3rd Edition. Wiley, 2006. P. 480.

71. Vintsyuk, T.K. "Speech discrimination by dynamic programming". Kiber-netika, Vol. 4, pp. 81–88, Jan.-Feb. 1968.

72. Wellekers C.J. Global connected digit recognition using Baum-Welch al-gorithm. In Proc. ICASSP ’86, Tokyo, Japan, P. 1081-1084, 1986.

73. Welling L., Kanthak S., Ney H. Improved methods for vocal tract nor-malization. In: Proc. of ICASSP, 1999, vol. 2, Phoenix, AZ, pp. 761–764.

74. Welling L., Ney H., Kanthak S. Speaker adaptive modeling by vocal tract normalization // IEEE Trans. Speech and Audio Processing, 2002 10(6):415–426.

75. Woelfel M., McDonough J. Distant Speech Recognition. Wiley, 2009. P.

594.

76. Wolfe J., Schafer E.C. Evaluation of speech recognition in noise. // J Am Acad Audiol, 20(7) 2009. P: 409-421.

77. Давыдов А.В. Сигналы и линейные системы. Лекции. [Электронный ресурс] // URL: http://gendocs.ru/v13566/ (дата обращения: 16.10.2013) 162

78. Потемкин В.Г. Справочник по Matlab [Электронный ресурс] // URL: http://www.exponenta.ru/soft/matlab/potemkin/book2 (дата обращения:16.10.2013).

79. Klautau A. Mel-frequency cepstrum coefficients [Электронный ресурс] // URL: http://www.cic.unb.br/~lamar/te073/Aulas/mfcc.pdf (дата обра-щения: 10.10.2013).

80. http://www.ee.ic.ac.uk/

81. http://labrosa.ee.columbia.edu/sounds/noise/

82. Leonard G., Doddington G. TIDigits [Электронный ресурс] // Linguistic Data Consortium, Philadelphia, 1993. URL: isip.piconepress.com/ pro-jects/speech/software/tutorials/production/fundamentals/v1.0/section_02/ s02_04_p01.html (дата обращения: 23.03.2013).

83. Wojcicki K. Add noise to a signal at a prescribed SNR level [Электрон-ный ресурс] // URL: http://www.mathworks.com/matlabcentral/ (дата обращения: 10.10.2013)

----------------------------------------------------------

Keyword: download luan an tien si, cac mo hinh, va giai thuat, nhan dang lenh, giong noi ngan, dua tren cac bien doi, pho tin hieu, dau vao, (Модели и алгоритмы, распознавания коротких, речевых команд на, основе пробных спектральных, преобразований входного сигнала ), nguyen chi thien

linkdownload: LUẬN ÁN TIẾN SĨ (Нгуен Чи Тхиен )

CÁC MÔ HÌNH VÀ GIẢI THUẬT NHẬN DẠNG LỆNH GIỌNG NÓI NGẮN DỰA TRÊN CÁC BIẾN ĐỔI PHỔ TÍN HIỆU ĐẦU VÀO (Модели и алгоритмы распознавания коротких речевых команд на основе пробных спектральных преобразований входного сигнала )

Bán linh kiện đồng hồ| Parts of watch

Tìm kiếm Blog này

Nhận xét

Đăng nhận xét

Bài đăng phổ biến từ blog này

sách giáo trình công nghệ thông tin pdf doc - sách tham khảo

Đề tài: Hoạt động marketing của công ty cổ phần bút bi Thiên Long

CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN KẾT QUẢ HỌC TẬP CỦA HỌC SINH TRƯỜNG PHỔ THÔNG DÂN TỘC NỘI TRỲ TỈNH CAO BẰNG