Тест TIMIT NTIMIT NTIMIT.


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте файл и откройте на своем компьютере.
3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) ɏȺɊȺКɌȿɊИɋɌИК ɌȿЛȿФОННОȽО КȺНȺЛȺ ɭниɜɟɪɫиɬɟɬ инɫɬиɬɭɬ ɚкɭɫɬики ɚкɭɫɬоэлɟкɬɪоники [email protected] ɜлияния ɬɟлɟɮонноɝо ɬочноɫɬь зɚɜиɫимоɫɬи Полɭчɟны оцɟнки ɬочноɫɬи [1], ɪɟзɭльɬɚɬы ɚɜɬомɚɬичɟɫкомɭ ɭкɪɚинɫкой ɬɪɟɛɭɟɬ ɭчɟɬом пɚɭзы поɫлɟɞɭющɟɝо ɚɜɬомɚɬичɟɫкоɝо ɫпонɬɚнной оɫоɛɟнноɫɬɟй ɭɫлоɜияɯ пɟɪɟɞɚчи (channel distortion). ɍɯɭɞшɟниɟ ɬɚком ɫлɭчɚɟ ɭɫлоɜиями оɝɪɚничɟниɟм [2]. ɬɚким ɭɫлоɜиям пɟɪɜɭю оɬноɫяɬ пɟɪɟɞɚɬочной ɯɚɪɚкɬɟɪиɫɬики коммɭникɚционноɝо иɫɫлɟɞɭɟɬɫя ɮонɟм поɫɬɪоɟния ɚкɭɫɬичɟɫкиɯ моɞɟлɟй моноɮоноɜ (HMM hidden Ma rkov models). ɞикɬоɪонɟзɚɜиɫимоɝо ɚɜɬомɚɬичɟɫкоɝо ɪɚɫпознɚɜɚния ɮонɟм MFCC PLP лɚɛоɪɚɬоɪныɯ ɭɫлоɜияɯ пɪопɭщɟнныɯ Иɫɫлɟɞоɜɚниɟ ɪоɛɚɫɬноɫɬи ɚɜɬомɚɬичɟɫкоɝо ɪɚɫпознɚɜɚния ɮонɟм мɭльɬипликɚционныɯ ɪɚɛоɬɟ пɪизнɚкоɜ ɭɫлоɜий зɚпиɫи оɛɭчɚющɟй ɭɫлоɜиям оɬноɫяɬɫя (transmission channels) ɭɫɬɪойɫɬɜ пɪɟоɛɪɚзɭющиɯ ɬɪɭɛки ɝɚɪниɬɭɪы ɬɪɟɛоɜɚниɟ ɪɚɫпознɚɜɚнии ɫɝлɚжиɜɚлиɫь инɞиɜиɞɭɚльныɟ 3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) пɪомɟжɭɬкɚɯ миллиɫɟкɭнɞ ɫиɝнɚл ɪɚзɛиɜɚɟɬɫя ɞɚнныɯ полɭчɟнныɯ пɭɬём ɫиɝнɚлɚ ɜычиɫляюɬɫя ɪɟчɟɜоɝо чɚɫɬноɬныɟ коэɮɮициɟнɬы MFCC (Mel-frequency cepstral coefficients) пɪɟɞɫкɚзɚния PLP (perceptual linear predictive) [4]. MFCC PLP нɟкоɬоɪɭю [3, 4, 5] ɭɫлоɜияɯ мɭльɬипликɚɬиɜныɯ шɭмоɜ полɭчɟния ɫлɟɞɭющɟм ɜыɛоɪкɭ знɚчɟний ɜыɛоɪкɭ знɚчɟний полɭчɟнныɯ пɭɬɟм нɟпɚɪɚмɟɬɪичɟɫкой ɬɪɟɭɝольными ɮɭнкциями ɮɭнкций чɚɫɬоɬ шкɚлы ɭɞɚɟɬɫя ɭчɟɫɬь нɟлинɟйнɭю зɚɜиɫимоɫɬь ɫлɭɯоɜоɝо 700 1 log( 2595 ) ( f f Mel Ɋиɫɭнок ɭɫɪɟɞняющиɟ ɬɪɟɭɝольныɟ ɮɭнкции пɪоизɜоɞиɬьɫя ɭпɪощɚɟɬ ɪɚзмɟɪноɫɬи оцɟнкɭ ɫпɟкɬɪɚ полɭчɚɟмɭю Фɭɪьɟ полɭчɟния MFCC иɫпользɭюɬ ɞɪɭɝой MFCC: ɚɜɬоɪɟɝɪɟɫɫионной помощью ɪɟкɭɪɪɟнɬноɝо [4]: = = 1 1 ( i i n i n n n i n c  k 0 , пɭɬɟм ɭɪɚɜнɟний [5]: 3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) коɪɪɟляционной ɮɭнкции ɫɟɝмɟнɬɚ шɭмɚ ɜозɞɟйɫɬɜɭющɟɝо ɯɚɪɚкɬɟɪизɭɟмый коэɮɮициɟнɬоɜ MFCC нɟзɚɜиɫимоɫɬь ɮɭнкции ɜɟɪояɬноɫɬи ɞиɚɝонɚльной Ⱥльɬɟɪнɚɬиɜой MFCC коэɮɮициɟнɬоɜ коэɮɮициɟнɬы PLP (perceptual linear predictive) [3]. Ɍɟɯникɚ PLP пɫиɯоɚкɭɫɬичɟɫкиɯ инɬɟнɫиɜноɫɬью зɜɭкɚ PLP ɫɬɚнɞɚɪɬном Фɭɪьɟ ɋпɟкɬɪ Фɭɪьɟ ɫиɝнɚлɚ полɭчɟнныɟ ɜыɯоɞɟ ɜзɜɟшиɜɚюɬɫя коɬоɪɚя эмпиɪичɟɫки ()() 2 2 2 2 4 2 2 400 1200 ) ( +  +  + = ɬɪɟɭɝольноɝо ɫжимɚюɬɫя пɭɬём кɭɛичɟɫкоɝо пɭɬём Фɭɪьɟ оɫноɜɟ ɜычиɫляюɬ пɪɟɞɫкɚзɚния LP (linear predictive) мɟɬоɞɭ ɫиɫɬɟмɚ помощью инɫɬɪɭмɟнɬɚɪия (Hidden Markov Model (HMM) Toolkit инɫɬɪɭмɟнɬɚɪий ɋкɪыɬыɯ Моɞɟлɟй и ɫ ɭчɟɬом [7, 8]. HMM ɫоɫɬоящиɟ 3- пɪопɭɫкɚ ɝɚɭɫɫоɜыми (CDHMM continuo us density HMM). ɫиɝнɚлɚ пɪоɜоɞиɬьɫя помощью 25 10 кɚɞɪɚ ɞɚльнɟйшɟй пɪопɭɫкɚɟɬɫя ɮильɬɪ ɜыɫокиɯ ɬɪɟɭɝольныɯ ɞля пɪоɜɟɞɟния чɚɫɬоɬ 26. ȼычиɫлялиɫь 12 лоɝɚɪиɮмом ɭчɟɬɚ энɟɪɝии _D) _A) [4]. PLP лоɝɚɪиɮмом энɟɪɝии нɭлɟɜой пɪɟɮикɫ _0). Пɭɬɟм ɞоɛɚɜлɟния _Z, (CMN cepstral mean normalization) [4]. Дɚннɚя позɜоляɟɬ ɭɫɬɪɚниɬь чɚɫɬоɬныɯ ɭɫɬɪойɫɬɜ пɭɬём ɜычиɬɚния знɚчɟния Оɛɭчɟниɟ ɚкɭɫɬичɟɫкиɯ (flat start), ɭниɜɟɪɫɚльнɚя ɭнимоɞɚльнɚя моɞɟль ɝɚɭɫɫиɚн ). ɫоɞɟɪжɚли оɞнɭ ɝɚɭɫɫоɜɭ оɛɭчɟния ɭɜɟличиɜɚлоɫь ɝɚɭɫɫоɜыɯ мɚкɫимɚльноɝо знɚчɟния ɞля 3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) 20. оɛɪɚɬныɯ ɭɜɟличɟнии 4. Моноɮоны полɭчɟнныɟ оɛɭчɟния ɝɚɭɫɫоɜой оɞноɝо оɛɭчɟния ɬɪиɮоны ɭчɟɬом иɫпользɭя ɭɫɬɚноɜлɟнныɟ 100 пɪоɜоɞилиɫь ɪɟчɟɜыɯ коɪпɭɫоɜ TIMIT NTIMIT. TIMIT коɪпɭɫ ɫоɞɟɪжɚщий 5 зɜɭкозɚпиɫɟй пɪоизнɟɫённыɯ зɜɭкозɚпиɫи ɜɪɟмɟннɭю ɮонɟмнɭю ɜыполнɟннɭю пɪоɮɟɫɫионɚльными коɪпɭɫ ɪɚзɛиɬ [9]. коɪпɭɫ NTIMIT оɫноɜɟ ɪɟчɟɜоɝо коɪпɭɫɚ TIMIT. Зɜɭкозɚпиɫи TIMIT NYNEX коɪпɭɫɟ NTIMIT зɜɭкозɚпиɫи ɯɚɪɚкɬɟɪными [10]. Ɍɟɫɬиɪоɜɚниɟ TIMIT TIMIT 55,6 58,0 59,3 59,9 60,9 61,0 61,6 61,4 61,8 NTIMIT NTIMIT 38,6 41,2 42,3 44,1 45,2 45,5 45,8 46,1 46,4 TIMIT NTIMIT 21,5 22,2 22,7 22,8 22,9 23,6 24,2 24,3 24,7 Оɛɭчɟниɟ mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20 TIMIT TIMIT 62,9 63,8 64,063,863,763,162,7 62,0 62,1 NTIMIT NTIMIT 45,8 47,4 47,747,747,747,647,8 47,3 46,6 TIMIT NTIMIT 25,8 25,5 24,524,423,924,523,5 23,4 23,1 3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) моноɮоноɜ Оɛɭчɟниɟ mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20 TIMIT TIMIT 55,7 57,4 59,160,260,560,761,2 61,7 61,9 NTIMIT NTIMIT 40,1 41,8 42,744,044,545,245,7 46,2 47,2 TIMIT NTIMIT 22,9 23,2 23,022,923,123,623,6 23,4 23,5 Оɛɭчɟниɟ mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20 TIMIT TIMIT 62,6 63,6 63,963,562,862,862,7 62,6 61,9 NTIMIT NTIMIT 46,3 47,1 47,547,747,146,847,0 47,2 46,0 TIMIT NTIMIT 26,9 26,5 27,026,626,926,225,5 25,4 25,1 NTIMIT ɯɭɞшим ɪɟзɭльɬɚɬɚм TIMIT, оɝɪɚничɟнноɫɬь ȺЧɏ 11 300 3400 . 2). зɜɭчɚния ɭплоɬнɟния Ɋиɫɭнок Ⱥмплиɬɭɞно Ɋиɫɭнок 1 ɪиɫ ɬɟлɟɮонноɝо нɟ ɭкɚзɚнɚ ɪɟзɭльɬɚɬоɜ 1-4 ɜыɜоɞ оɛɭчɟния ɚкɭɫɬичɟɫкиɯ моɞɟлɟй зɚпиɫɚнной ɭɫлоɜияɯ ɭɫлоɜия позɜоляɟɬ TIMIT, ɫиɫɬɟмой оɛɭчɟнной NTIMIT, ɞɚнной поɫколькɭ ɫиɬɭɚция пɪи ɭɯɭɞшɚɟɬɫя пɪопɭɫкɚнии PLP- 3. Иɫкɭɫɫɬɜɟнный нɟйɪоɫɟɬɟɜыɟ эɜолюционныɟ ɚлɝоɪиɬмы Инɮоɪмɚционныɟ ɭпɪɚɜляющиɟ компьюɬɟɪный мониɬоɪинɝ 2012) ɭлɭчшиɬь ɭлɭчшɟниɟ ɞоɫɬижɟния ɫооɬɜɟɬɫɬɜɭющɟɝо ɫиɬɭɚции ɭɫлоɜий Полɭчɟны ɭɯɭɞшɟния оɛɭɫлоɜлɟнноɝо ɜлияниɟм чɚɫɬоɬ оɛɭчɟния ɚкɭɫɬичɟɫкиɯ моɞɟлɟй ɭɫлоɜияɯ ɭɫлоɜия мɟнɟɟ Пилипɟнко Ⱥнноɬɚция ɭчɟɬ ɭкɪɚинɫкой Ɍɟкɫɬ] / Иɫкɭɫɫɬɜɟнный Rabiner L. R. Applications of Voice Proce ssing to telecommunications // Proceedings of Hermansky H. Perceptual linear predictive (P LP) analysis of speech // J. Acoust. Soc. Am. 111 1990.Vol.87, Picone, J.W. Signal modeling techniques in speech recognition // Proceedings of the IEEE, 81, pp. 1215, September 1993. Rabiner L. Fundamentals of Speech Recogniti on. // Prentice-Hall International Inc. Young S., Everman G. Moore, J. Odell, D. Ollason, V. Valtchev, Woodland P. The HTK eering Department. 2005, pp. 354. HTK training for TIMIT from Cantab Research [Electronic resourse] / ɪɟɫɭɪɫ ɞоɫɬɭпɚ : www/ URL: http://www.cantabResear ch.com/HTKtimit.ht ml - Multiple Пɪоɞɟɭɫ инɫɬɪɭмɟнɬɚɪия Ɍɟкɫɬ] / О.Н. Лɚɞошко // Zue V., Seneff S., Glass J. Speech database development at MIT: TIMIT and beyond // Speech Communication. 1990. Vol. 9, Jankowski C., Kalyanswamy A., Basson S., Sp

Приложенные файлы

  • pdf 2469326
    Размер файла: 1 MB Загрузок: 0

Добавить комментарий