Применение распределений мел-частотных кепстральных коэффициентов для голосовой идентификации личности.


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
156
УДК 004.056+ 004.852
А.
С.
Заковряшин, П.
В.
Малинин, А.
А.
Лепендин
Применение распределений мел-частотных кепстральных
коэффициентов для
голосовой идентификации личности
A.
S.
Zakovryashin, P.
V.
Malinin, A.
A.
Lependin
Speaker Recognition Using Mel-Frequency Cepstral
Coefficient Distributions
Работа посвящена развитию методов распоз
навания личности на
основе голосовых данных.
Предложен новый подход к
формированию векторов
признаков при
предварительной обработке голосовых
образцов, основанный на
построении гистограмм ча
стотных распределений мел-частотных кепстраль
ных коэффициентов. Отличительной особенностью
является независимость полученного вектора от
ны исходного голосового образца, его относительно
малый размер и
учет в
нем разброса индивидуальных
характеристик голосового тракта идентифицируемо
го субъекта. Разработан программный модуль иденти
фикации личности по
голосу на
основе предложенно
го подхода и
метода опорных векторов. Программный
модуль реализован на
языке Matlab с
использованием
функций пакета Voicebox. Проведено сравнение с
тра
диционно используемыми при
решении задачи иден
тификации дикторов векторами признаков. Тестовые
испытания разработанного модуля показали, что
пред
ложенный подход к
предварительной обработке голо
совых данных позволяет достичь относительно низко
го значения вероятностей ошибок первого и
второго
рода и
может использоваться при
построении эффек
тивных систем речевой идентификации.
Ключевые слова
голосовая идентификация личности,
вектор признаков, мел-частотные кепстральные коэф
фициенты, распределение частот.
This paper is devoted to the development of feature
extraction methods for speaker recognition. A new
approach based on histograms of mel-frequency cepstral
coefficient (MFCC) distributions to calculate feature
vectors for voice samples is proposed. The resulting
vectors appear to be independent of original voice
sample length and have relatively small sizes. They
incorporate the spread of unique vocal tract related
characteristics which can be used as distinctive features
for recognition. This approach of voice recognition
is implemented in a software module developed for
MATLAB environment. A support vector machine
method and Voicebox speech processing toolbox for
MATLAB are utilized. Results of the developed module
test runs are obtained and reported. A comparison of
test results with results of traditionally used feature
vector based techniques of speaker recognition shows
relatively low rates of false acceptance and false match
for the proposed approach. Feature vectors based on
MFCC distributions can be effectively used in real
Key words
: speaker recognition, feature vector, mel-
frequency cepstrum coefficients, frequency distribution.
DOI 10.14258/izvasu(2014)1.1-35
Введение
. Задача верификации диктора по
голо
совым данным в
настоящее время находит широкое
применение при
построении безопасных информаци
онных систем. Как
правило, ее решение основывается
выявлении индивидуальных акустических характе
ристик пользователей, которые
бы позволили эффек
тивно и
точно проводить сравнение образцов голоса,
предъявляемых при
попытке доступа и
сохраняемых
специализированной базе данных.
Как
любой другой биометрический подход, голо
совая идентификация не
является абсолютно надеж
ной. На
ее качество влияют расположение диктора
относительно микрофона, состояние его здоровья (на
личие или
отсутствие хрипа в
голосе), характеристи
ки регистрирующего тракта, особенности реализации
алгоритмов предварительной обработки сигнала и
лучения вектора признаков, его характеризующего,
применяемый алгоритм идентификации. Таким обра
зом, несмотря на
активное развитие систем голосовой
идентификации, имеется необходимость в
посте
пенном совершенствовании.
настоящей работе предлагается новый подход
формированию вектора признаков, описывающего
индивидуальные характеристики голоса диктора. Он ос
нован на
применении уже хорошо зарекомендовавшего
способа выделения полезной информации об
акустиче
157
ском сигнале, основанном на вычислении мел-частотных
кепстральных коэффициентов (MFCC–Mel Frequiency
Cepstral Coefficients) и построении их распределений
для фраз произвольной длины. Отличительной особен-
ностью предлагаемого подхода является независимость
полученного вектора от длины исходного голосового об-
разца, его относительно малый размер и учет в нем раз-
броса индивидуальных характеристик голосового трак-
та идентифицируемого субъекта.
1. Получение вектора признаков на основе
MFCC.
Схема системы идентификации личности
на основе голосовых данных реализуется с помощью
следующих этапов [1,2]:
1. Уровень обработки сигнала. Выделение призна-
ков, существенных для задачи распознавания и фор-
мирование так называемого вектора признаков.
2. Уровень модели. Позволяет путем построения
математической модели проводить сопоставление век-
торов признаков друг с другом и вычислять степени
подобия между зарегистрированными признаками
и сохраненной моделью.
3. Уровень принятия решений. Проводит приня-
тие конечных решений на основе полученных степе-
ней подобий и, если необходимо, заданных порого-
вых значений.
К настоящему времени в отрасли сложился типич-
ный алгоритм предварительной обработки акустиче-
ского сигнала после его записи [3]. Оцифрованный
сигнал разбивается на блоки длительностью 25–30 мс
(обозначим отсчеты в одном из них x
,..., x
). К каж-
дому подобному блоку применяется весовая функция
и затем дискретное преобразование Фурье. Примером
весовой функции может служить окно Хэмминга:
0,540,46cos2,0,,1
\t
\t
, (1)
где
— длина окна, выраженная в отсчетах.
Весовая функция используется для уменьшения
искажений в Фурье анализе, вызванных конечностью
выборки. Тогда дискретное преобразование Фурье
взвешенного сигнала можно записать в виде:
knn
Xxwkn





. (2)
Значения индексов
соответствуют частотам:
k
fk
N
где
— частота дискретизации сигнала.
Полученное представление сигнала в частотной
области разбивают на диапазоны с помощью банка
(гребенки) треугольных фильтров. Границы фильтров
рассчитывают в шкале мел. Перевод в мел-частотную
область осуществляется по формуле [4]:
()1127ln1

. (4)
Пусть
FB
— количество фильтров (обычно ис-
пользуют порядка 24 фильтров); (
, f
) — иссле-
дуемый диапазон частот. Тогда данный диапазон пе-
реводят в шкалу мел, разбивают на
равномерно
распределенных перекрывающихся диапазона и вы-
числяют соответствующие границы в области ли-
нейных частот. Обозначим через
— весовые
коэффициенты полученных фильтров. Фильтры при-
меняются к квадратам модулей коэффициентов пре-
образования Фурье. Полученные значения логариф-
мируются:
ln
,0,,1.
kmk
eXHmN
(5)
Заключительным этапом в вычислении MFCC ко-
эффициентов является дискретное косинусное пре-
образование
(0,5)
cos
,1,,
MFCC
ce



. (6)
Коэффициент с
не используется, так как пред-
ставляет энергию сигнала. Количество коэффициен-
тов
на практике выбирают от 12 до 30. На ри-
сунке 1 приведен пример графика мел-кепстральных
коэффициентов.
Рис. 1. Пример мел-кепстральных коэффициентов
для фразы «один-два-три»
Для типичных акустических сигналов, применяе-
мых при идентификации (коротких парольных фраз
типа «один, два, три»), количество блоков разбиения,
для которых мы подсчитываем коэффициенты MFCC,
является плавающей величиной, зависящей от дли-
тельности произнесения фразы. Соответствующие
вектора признаков имеют также различную длину
и содержат порядка нескольких тысяч кепстральных
коэффициентов. В некоторых случаях [1] к этим дан-
ным могут добавляться также еще и рассчитанные
на основе MFCC значения первых и вторых производ-
 \tŒ\b‡ \bŠ­\t……‚€Œ\t…\b‹‚€ƒ‘‘’…†††
\r\f \n\r
158
ных по времени, что еще больше увеличивает дли-
ны векторов.
Существует несколько подходов к фиксации и умень-
шению длины результирующего вектора признаков:
размер окна для разбиения сигнала брать не фик-
сированной длины для всех образцов, а разбивать
их на фиксированное количество окон, длины,
рассчитываемой для каждого образца;
не разбивать сигнал на окна, а получать вектор
признаков значений мел-частотных кепстраль-
ных коэффициентов для всего сигнала. Для всех
образцов длина вектора признаков будет рав-
на заданному количеству кепстральных коэф-
фициентов. Описание сигнала становится край-
не грубым;
приводить все образцы на этапе предобработки
к одной длине. Этот метод является неприемле-
мым в задаче распознавания диктора, так как вно-
сит искажения в исходный сигнал.
В данной работе был предложен новый способ фор-
мирования вектора признаков для образца речевого сиг-
нала на основе частотного распределения значений, по-
лученных при применении алгоритма мел-частотных
кепстральных коэффициентов. Будем работать с набо-
ром векторов кепстральных коэффициентов, размером
, где
— количество блоков, на которые раз-
бивается сигнал, а
— количество рассчитываемых
мел-частотных кепстральных коэффициентов для каж-
дого блока, формирующихся на выходе описанного
выше алгоритма. Установим число интервалов, в пре-
делах которых необходимо сгруппировать значения ко-
эффициентов, а также установим границы этих интер-
валов. Затем подсчитываем число попаданий значений
мел-кепстральных коэффициентов в каждый интервал
по всем блокам. Вместо набора векторов кепстральных
коэффициентов получаем один вектор, с единой для всех
образцов размерностью, которая значительно меньше
размерности матрицы векторов. Размерность данного
вектора можно менять исходя из необходимой точности
частотного распределения (числа интервалов карманов
при расчете частот), а также количества используемых
кепстральных коэффициентов.
На рисунке 2 изображен вектор признаков, полу-
ченных описанным выше способом. График представ-
ляет собой, по сути, двадцать четыре последовательно
расположенных гистограммы для каждого из коэф-
фициентов. На рисунке 3а изображены четыре таких
вектора для четырех разных образцов фразы «ноль,
один, два», повторенных одним диктором. На рисунке
3б изображены векторы признаков для фразы «ноль,
один, два», произнесенной двумя разными диктора-
ми. Видно, что для двух разных дикторов, произно-
сящих одну и ту же фразу в отличие от случая одного
и того же диктора, значения качественно различаются.
Рис. 2. Пример полученного вектора признаков для одного диктора
2. Описание модуля предварительной об-
работки голосовых образцов.
В данной работе
при проведении апробации предложенного подхода
к формированию векторов признаков в качестве го-
лосовых образцов использовались WAV-файлы с ча-
стотой дискретизации 16 кГц и разрядностью 16 бит.
Использовалась база дикторов из 20 человек, по 10
повторений одной фразы. В качестве программной
среды для обработки сигнала использовался пакет
MATLAB с бесплатным toolbox’ом VOICEBOX [5],
содержащим богатую библиотеку функций для обра-
ботки мультимедиа сигналов.
На первом этапе предобработки использовалась
стандартная функция wavread, которая возвраща-
ет вектор значений амплитуд сигнала и частоту его
дискретизации. Далее при помощи VAD-алгоритма
(Voice Activity Detector), реализованного в функции
vadsohn toolbox’а VOICEBOX, выделялись участки
сигнала, не содержащие речь, и проводилось их по-
следующее удаление.
Расчет MFCC коэффициентов был реализован пу-
тем применения функции melcepst. На вход данной
функции подавались речевой сигнал S, частота его
дискретизации Fs, количество кепстральных коэффи-
159
циентов на выходе, исключая коэффициент с
(в дан-
ной работе — 24), длина окна в отсчетах, на которые
будет разбиваться сигнал (размер окна выбран 20 мс,
что в отсчетах равно 0,02*Fs), количество фильтров
в гребенке треугольных фильтров (использовано зна-
чение по умолчанию, равное примерно 2,1 на октаву)
и размер перекрытия между окнами, который в дан-
ном случае равнялся половине окна. На выходе по-
лучали матрицу размером Mx24, где M — количе-
ство окон, на которые был разбит исходный сигнал.
Величина зависела от длины входного сигнала.
Затем рассчитывалось частотное распределение
значений для каждого из 24 коэффициентов по по-
лученной матрице. Для первых 10 кепстральных ко-
эффициентов были установлены границы интервала
построения распределений от –10 до 10. Число ин-
тервалов было выбрано 21, т. е. от –10 до 10 с шагом
1. Для остальных кепстральных коэффициентов уста-
новим границы интервала от –2 до 2, шаг 0.2, следо-
вательно, количество интервалов тоже 21. Таким об-
разом, получали вектор признаков фиксированного
размера: 21*24 504 элемента.
Далее проводилось разбиение полученных для всех
голосовых образцов векторов признаков на две груп-
пы — обучающую и тестовую. В качестве образцовых
Рис. 3. Сравнение полученных векторов признаков:
— для одного и того же диктора;
— для двух разных дикторов
 \tŒ\b‡ \bŠ­\t……‚€Œ\t…\b‹‚€ƒ‘‘’…†††
методов классификации применялись методы ближай-
ших соседей [6-8] и опорных векторов [8].
3. Анализ разработанного подхода.
Одними
из основных характеристик методов идентификации
дикторов являются ошибки первого (ложный допуск
чужого) и второго (ложный недопуск своего) рода.
Для оценки ошибки первого рода база обучалась на 20
дикторах, используя пять образцов для каждого дикто-
ра. Проверка проводилась по тем же дикторам, толь-
ко использовались другие пять образцов. Для оценки
ошибки второго рода база обучалась на 15 дикторах,
используя пять образцов на диктора. Для проверки
использовалось по десять образцов других пяти дик-
торов.
Результаты реализованного подхода сравнивались
с результатами аналогичных оценок первого и второ-
го рода для существующих методов, использующих
аналогичный алгоритм. А именно: в качестве вектора
признаков используется вектор из 24 мел-частотных
кепстральных коэффициентов, рассчитанных для все-
го сигнала целиком, или
вектор кепстральных коэффи
циентов, рассчитанных для
фиксированного количе
ства окон, на
которые разбивается сигнал. В
качестве
метода классификации использовался метод опорных
векторов или
метод ближайших соседей.
Оценки ошибок приведены в
таблице 1. Видно,
что
лучшие результаты достигаются при
примене
нии алгоритма, в
котором вектором признаков явля
ется вектор, основанный на
частотном распределении
значений мел-частотных кепстральных коэффициен
тов, а
методом классификации
— метод опорных век
торов. Причем наилучшие показатели ошибок пер
вого и
второго рода достигнуты при
распознавании
короткой фразе, в
данном случае «ноль, один, два».
Такой результат может быть обусловлен тем, что
одно
слово
— недостаточно сложная модель для
вания диктора и
происходит недообучение системы.
использование длинной фразы «ноль, один, два, три,
четыре, пять, шесть, семь, восемь, девять», по
всей ви
димости, приводит к
переобучению системы.
Библиографический список
1. Первушин
Обзор основных методов распозна
вания дикторов // Математические структуры и
моделиро
вание.
— 2011.
2. Малинин П.В., Поляков В.В. Иерархический подход
в задаче идинтификации личности по голосу с помощью
проекционных методов классификации многомерных дан
ных // Доклады Томского гос. университета систем управ
ления и радиоэлектроники. — 2010. — № 1/1.
3. Сорокин
Н., Вьюгин
В., Тананыкин
познавание личности по
голосу: аналитический обзор //
Информационные процессы.
— Т. 12, №
4. Ganchev
T., Fakotakis
N., Kokkinakis
evaluation of various MFCC implementations on the speaker
verification task // 10th International Conference on Speech
and Computer.
5. VOICEBOX: Speech Processing Toolbox for MATLAB
[Электронный ресурс].
— URL: http://www.ee.ic.ac.uk/hp/
staff/dmb/voicebox/voicebox.html.
6. Christopher
Bishop. Pattern recognition and machine
— Hamburg, 2006.
7. Кучерявский С.В., Поляков В.В. Применение мето
дов анализа многомерных данных и исследования структу
ры материала // Заводская лаборотория. Диагностика мате
риалов. — 2007. — Т. 73, №8.
8. Воронцов
Лекции по
методу опорных векторов
[Электронный ресурс].
— URL: http://www.ccas.ru/voron/
Ошибки первого и второго рода.
№ алго
ритма
Вектор признаков, основанный на частотном распределе
нии значений мел-частотныхкепстральных коэффициентов
Вектор признаков, основанный на частотном распределе
нии значений мел-частотныхкепстральных коэффициентов
Мел-частотных кепстральныекоэффициенты рассчитан
ные для всего фиксированного количества окон (50 окон)
Мел-частотных кепстральныекоэффициенты рассчитан
ные для всего фиксированного количества окон (50 окон)
24 мел-частотных кепстральных коэффициента рассчитан
ные для всего сигнала целиком
24 мел-частотных кепстральных коэффициента рассчитан
ные для всего сигнала целиком
Вектор признаков
Метод опорных
векторов
Метод ближай
шего соседа
Метод опорных
векторов
Метод ближай
шего соседа
Метод опорных
векторов
Метод ближай
шего соседа
Метод
классификации
первого рода, %
второго рода, %
Заключение.
данной работе была предложе
на основанная на
получении распределений мел-
кепстральных коэффициентов методика получения
вектора признаков, характеризующих индивидуаль
ные параметры голоса. В
среде MATLAB был реа
лизован модуль голосовой аутентификации на
осно
ве изученного метода получения вектора признаков
метода опорных векторов. Были проведены тесто
вые испытания разработанного модуля и
показано,
что
такой подход к
предварительной обработке аку
стических данных имеет хорошие характеристики
сравнению с
применяемыми и
может использо
ваться при
построении эффективных систем рече
вой идентификации.
160

Приложенные файлы

  • pdf 3224017
    Размер файла: 419 kB Загрузок: 0

Добавить комментарий