Тест TIMIT NTIMIT NTIMIT.


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)
ɏȺɊȺКɌȿɊИɋɌИК
ɌȿЛȿФОННОȽО
КȺНȺЛȺ
ɭниɜɟɪɫиɬɟɬ
инɫɬиɬɭɬ
ɚкɭɫɬики
ɚкɭɫɬоэлɟкɬɪоники
[email protected]
ɜлияния
ɬɟлɟɮонноɝо
ɬочноɫɬь
зɚɜиɫимоɫɬи
Полɭчɟны
оцɟнки
ɬочноɫɬи
[1],
ɪɟзɭльɬɚɬы
ɚɜɬомɚɬичɟɫкомɭ
ɭкɪɚинɫкой
ɬɪɟɛɭɟɬ
ɭчɟɬом
пɚɭзы
поɫлɟɞɭющɟɝо
ɚɜɬомɚɬичɟɫкоɝо
ɫпонɬɚнной
оɫоɛɟнноɫɬɟй
ɭɫлоɜияɯ
пɟɪɟɞɚчи
(channel distortion).
ɍɯɭɞшɟниɟ
ɬɚком
ɫлɭчɚɟ
ɭɫлоɜиями
оɝɪɚничɟниɟм
[2].
ɬɚким
ɭɫлоɜиям
пɟɪɜɭю
оɬноɫяɬ
пɟɪɟɞɚɬочной
ɯɚɪɚкɬɟɪиɫɬики
коммɭникɚционноɝо
иɫɫлɟɞɭɟɬɫя
ɮонɟм
поɫɬɪоɟния
ɚкɭɫɬичɟɫкиɯ
моɞɟлɟй
моноɮоноɜ
(HMM hidden Ma
rkov models).
ɞикɬоɪонɟзɚɜиɫимоɝо
ɚɜɬомɚɬичɟɫкоɝо
ɪɚɫпознɚɜɚния
ɮонɟм
MFCC
PLP
лɚɛоɪɚɬоɪныɯ
ɭɫлоɜияɯ
пɪопɭщɟнныɯ
Иɫɫлɟɞоɜɚниɟ
ɪоɛɚɫɬноɫɬи
ɚɜɬомɚɬичɟɫкоɝо
ɪɚɫпознɚɜɚния
ɮонɟм
мɭльɬипликɚционныɯ
ɪɚɛоɬɟ
пɪизнɚкоɜ
ɭɫлоɜий
зɚпиɫи
оɛɭчɚющɟй
ɭɫлоɜиям
оɬноɫяɬɫя
(transmission channels)
ɭɫɬɪойɫɬɜ
пɪɟоɛɪɚзɭющиɯ
ɬɪɭɛки
ɝɚɪниɬɭɪы
ɬɪɟɛоɜɚниɟ
ɪɚɫпознɚɜɚнии
ɫɝлɚжиɜɚлиɫь
инɞиɜиɞɭɚльныɟ
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)
пɪомɟжɭɬкɚɯ
миллиɫɟкɭнɞ
ɫиɝнɚл
ɪɚзɛиɜɚɟɬɫя
ɞɚнныɯ
полɭчɟнныɯ
пɭɬём
ɫиɝнɚлɚ
ɜычиɫляюɬɫя
ɪɟчɟɜоɝо
чɚɫɬноɬныɟ
коэɮɮициɟнɬы

MFCC (Mel-frequency cepstral coefficients)
пɪɟɞɫкɚзɚния
PLP (perceptual linear predictive) [4].
MFCC
PLP
нɟкоɬоɪɭю
[3, 4, 5]
ɭɫлоɜияɯ
мɭльɬипликɚɬиɜныɯ
шɭмоɜ
полɭчɟния
ɫлɟɞɭющɟм
ɜыɛоɪкɭ
знɚчɟний
ɜыɛоɪкɭ
знɚчɟний
полɭчɟнныɯ
пɭɬɟм
нɟпɚɪɚмɟɬɪичɟɫкой
ɬɪɟɭɝольными
ɮɭнкциями
ɮɭнкций
чɚɫɬоɬ
шкɚлы
ɭɞɚɟɬɫя
ɭчɟɫɬь
нɟлинɟйнɭю
зɚɜиɫимоɫɬь
ɫлɭɯоɜоɝо
700
1
log(
2595
)
(
f
f
Mel
Ɋиɫɭнок
ɭɫɪɟɞняющиɟ
ɬɪɟɭɝольныɟ
ɮɭнкции
пɪоизɜоɞиɬьɫя
ɭпɪощɚɟɬ
ɪɚзмɟɪноɫɬи
оцɟнкɭ
ɫпɟкɬɪɚ
полɭчɚɟмɭю
Фɭɪьɟ
полɭчɟния
MFCC
иɫпользɭюɬ
ɞɪɭɝой
MFCC:
ɚɜɬоɪɟɝɪɟɫɫионной
помощью
ɪɟкɭɪɪɟнɬноɝо
[4]:
=



=
1
1
(
i
i
n
i
n
n
n
i
n
c

k
0
,
пɭɬɟм
ɭɪɚɜнɟний
[5]:
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)

коɪɪɟляционной
ɮɭнкции
ɫɟɝмɟнɬɚ

шɭмɚ
ɜозɞɟйɫɬɜɭющɟɝо
ɯɚɪɚкɬɟɪизɭɟмый
коэɮɮициɟнɬоɜ
MFCC
нɟзɚɜиɫимоɫɬь
ɮɭнкции
ɜɟɪояɬноɫɬи
ɞиɚɝонɚльной
Ⱥльɬɟɪнɚɬиɜой
MFCC
коэɮɮициɟнɬоɜ
коэɮɮициɟнɬы
PLP (perceptual linear predictive) [3].
Ɍɟɯникɚ
PLP
пɫиɯоɚкɭɫɬичɟɫкиɯ
инɬɟнɫиɜноɫɬью
зɜɭкɚ
PLP
ɫɬɚнɞɚɪɬном
Фɭɪьɟ
ɋпɟкɬɪ
Фɭɪьɟ

ɫиɝнɚлɚ
полɭчɟнныɟ
ɜыɯоɞɟ
ɜзɜɟшиɜɚюɬɫя
коɬоɪɚя
эмпиɪичɟɫки
()()
2
2
2
2
4
2
2
400
1200
)
(
+

+

+
=




ɬɪɟɭɝольноɝо
ɫжимɚюɬɫя
пɭɬём
кɭɛичɟɫкоɝо
пɭɬём
Фɭɪьɟ
оɫноɜɟ
ɜычиɫляюɬ
пɪɟɞɫкɚзɚния
LP (linear
predictive)
мɟɬоɞɭ
ɫиɫɬɟмɚ
помощью
инɫɬɪɭмɟнɬɚɪия
(Hidden Markov Model (HMM) Toolkit
инɫɬɪɭмɟнɬɚɪий
ɋкɪыɬыɯ
Моɞɟлɟй
и ɫ ɭчɟɬом
[7, 8].
HMM
ɫоɫɬоящиɟ
3-
пɪопɭɫкɚ
ɝɚɭɫɫоɜыми
(CDHMM continuo
us density HMM).
ɫиɝнɚлɚ
пɪоɜоɞиɬьɫя
помощью
25
10
кɚɞɪɚ
ɞɚльнɟйшɟй
пɪопɭɫкɚɟɬɫя
ɮильɬɪ
ɜыɫокиɯ
ɬɪɟɭɝольныɯ
ɞля
пɪоɜɟɞɟния
чɚɫɬоɬ
26.
ȼычиɫлялиɫь
12
лоɝɚɪиɮмом
ɭчɟɬɚ
энɟɪɝии
_D)
_A) [4].
PLP
лоɝɚɪиɮмом
энɟɪɝии
нɭлɟɜой
пɪɟɮикɫ
_0).
Пɭɬɟм
ɞоɛɚɜлɟния
_Z,
(CMN cepstral mean
normalization) [4].
Дɚннɚя
позɜоляɟɬ
ɭɫɬɪɚниɬь
чɚɫɬоɬныɯ
ɭɫɬɪойɫɬɜ
пɭɬём
ɜычиɬɚния
знɚчɟния
Оɛɭчɟниɟ
ɚкɭɫɬичɟɫкиɯ
(flat start),
ɭниɜɟɪɫɚльнɚя
ɭнимоɞɚльнɚя
моɞɟль
ɝɚɭɫɫиɚн
).
ɫоɞɟɪжɚли
оɞнɭ
ɝɚɭɫɫоɜɭ
оɛɭчɟния
ɭɜɟличиɜɚлоɫь
ɝɚɭɫɫоɜыɯ
мɚкɫимɚльноɝо
знɚчɟния
ɞля
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)
20.
оɛɪɚɬныɯ
ɭɜɟличɟнии
4.
Моноɮоны
полɭчɟнныɟ
оɛɭчɟния
ɝɚɭɫɫоɜой

оɞноɝо
оɛɭчɟния
ɬɪиɮоны
ɭчɟɬом
иɫпользɭя
ɭɫɬɚноɜлɟнныɟ
100




пɪоɜоɞилиɫь
ɪɟчɟɜыɯ
коɪпɭɫоɜ
TIMIT
NTIMIT. TIMIT
коɪпɭɫ
ɫоɞɟɪжɚщий
5
зɜɭкозɚпиɫɟй
пɪоизнɟɫённыɯ
зɜɭкозɚпиɫи
ɜɪɟмɟннɭю
ɮонɟмнɭю
ɜыполнɟннɭю
пɪоɮɟɫɫионɚльными
коɪпɭɫ
ɪɚзɛиɬ
[9].
коɪпɭɫ
NTIMIT
оɫноɜɟ
ɪɟчɟɜоɝо
коɪпɭɫɚ
TIMIT.
Зɜɭкозɚпиɫи
TIMIT
NYNEX
коɪпɭɫɟ
NTIMIT
зɜɭкозɚпиɫи
ɯɚɪɚкɬɟɪными
[10].
Ɍɟɫɬиɪоɜɚниɟ
TIMIT TIMIT 55,6 58,0 59,3 59,9 60,9 61,0 61,6 61,4 61,8
NTIMIT NTIMIT 38,6 41,2 42,3 44,1 45,2 45,5 45,8 46,1 46,4
TIMIT NTIMIT 21,5 22,2 22,7 22,8 22,9 23,6 24,2 24,3 24,7
Оɛɭчɟниɟ
mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20
TIMIT TIMIT 62,9 63,8 64,063,863,763,162,7 62,0 62,1
NTIMIT NTIMIT 45,8 47,4 47,747,747,747,647,8 47,3 46,6
TIMIT NTIMIT 25,8 25,5 24,524,423,924,523,5 23,4 23,1
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)
моноɮоноɜ
Оɛɭчɟниɟ
mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20
TIMIT TIMIT 55,7 57,4 59,160,260,560,761,2 61,7 61,9
NTIMIT NTIMIT 40,1 41,8 42,744,044,545,245,7 46,2 47,2
TIMIT NTIMIT 22,9 23,2 23,022,923,123,623,6 23,4 23,5
Оɛɭчɟниɟ
mix4 mix6 mix8mix10mix12mix14nmix16 mix18 mix20
TIMIT TIMIT 62,6 63,6 63,963,562,862,862,7 62,6 61,9
NTIMIT NTIMIT 46,3 47,1 47,547,747,146,847,0 47,2 46,0
TIMIT NTIMIT 26,9 26,5 27,026,626,926,225,5 25,4 25,1
NTIMIT
ɯɭɞшим
ɪɟзɭльɬɚɬɚм
TIMIT,
оɝɪɚничɟнноɫɬь
ȺЧɏ
11
300
3400
. 2).
зɜɭчɚния
ɭплоɬнɟния
Ɋиɫɭнок
Ⱥмплиɬɭɞно
Ɋиɫɭнок
1
ɪиɫ
ɬɟлɟɮонноɝо
нɟ ɭкɚзɚнɚ
ɪɟзɭльɬɚɬоɜ
1-4
ɜыɜоɞ
оɛɭчɟния
ɚкɭɫɬичɟɫкиɯ
моɞɟлɟй
зɚпиɫɚнной
ɭɫлоɜияɯ
ɭɫлоɜия
позɜоляɟɬ
TIMIT,
ɫиɫɬɟмой
оɛɭчɟнной
NTIMIT,
ɞɚнной
поɫколькɭ
ɫиɬɭɚция
пɪи
ɭɯɭɞшɚɟɬɫя
пɪопɭɫкɚнии
PLP-
3.
Иɫкɭɫɫɬɜɟнный
нɟйɪоɫɟɬɟɜыɟ
эɜолюционныɟ
ɚлɝоɪиɬмы
Инɮоɪмɚционныɟ
ɭпɪɚɜляющиɟ
компьюɬɟɪный
мониɬоɪинɝ
2012)
ɭлɭчшиɬь
ɭлɭчшɟниɟ
ɞоɫɬижɟния
ɫооɬɜɟɬɫɬɜɭющɟɝо
ɫиɬɭɚции
ɭɫлоɜий
Полɭчɟны
ɭɯɭɞшɟния
оɛɭɫлоɜлɟнноɝо
ɜлияниɟм
чɚɫɬоɬ
оɛɭчɟния
ɚкɭɫɬичɟɫкиɯ
моɞɟлɟй
ɭɫлоɜияɯ
ɭɫлоɜия
мɟнɟɟ
Пилипɟнко
Ⱥнноɬɚция
ɭчɟɬ
ɭкɪɚинɫкой
Ɍɟкɫɬ] /
Иɫкɭɫɫɬɜɟнный
Rabiner L. R. Applications of Voice Proce
ssing to telecommunications // Proceedings of
Hermansky H. Perceptual linear predictive (P
LP) analysis of speech // J. Acoust. Soc.
Am. 111 1990.Vol.87,
Picone, J.W. Signal modeling techniques in
speech recognition // Proceedings of the
IEEE, 81, pp. 1215, September 1993.
Rabiner L. Fundamentals of Speech Recogniti
on. // Prentice-Hall International Inc.
Young S., Everman G. Moore, J. Odell, D.
Ollason, V. Valtchev, Woodland P. The HTK
eering Department. 2005, pp. 354.
HTK training for TIMIT from Cantab
Research [Electronic resourse] /
ɪɟɫɭɪɫ
ɞоɫɬɭпɚ
: www/ URL: http://www.cantabResear
ch.com/HTKtimit.ht
ml - Multiple
Пɪоɞɟɭɫ
инɫɬɪɭмɟнɬɚɪия
Ɍɟкɫɬ] / О.Н. Лɚɞошко
//
Zue V., Seneff S., Glass J. Speech database
development at MIT: TIMIT and beyond //
Speech Communication. 1990. Vol. 9,
Jankowski C., Kalyanswamy A., Basson S., Sp

Приложенные файлы

  • pdf 2469326
    Размер файла: 1 MB Загрузок: 0

Добавить комментарий