На главную | Содержание | Назад | Вперёд
Наши друзья

 

 

Идентификация по голосу

В современном мире все больше проявляется интерес к речевым технологиям, в частности, к идентификации личности по голосу. Это объясняется, с одной стороны, появлением высокопроизводительных вычислительных систем на базе персональных компьютеров и аппаратных средств, позволяющих производить ввод сигнала в компь­ютер, а, с другой стороны, высокой потребностью систем аутентификации в разных
областях жизнедеятельности человека.
Метод опознавания личности по голосу существует с тех пор, как человек научил­ся говорить. Поэтому достоинства и недостатки этого метода известны всем. Как не всегда по ответу на вопрос «Кто там?» мы можем определить, что за дверью стоит знакомый человек, и приходится развеивать свои сомнения, заглянув в дверной гла­зок, так и техническая система идентификации может ошибаться в силу изменения голоса отдельного человека.
Привлекательность данного метода — удобство в применении. Метод проверки голоса имеет два положительных отличия от остальных биометрических методов. Во-
первых, это идеальный способ для телекоммуникационных приложений. Во-вторых, большинство современных компьютеров уже имеют необходимое аппаратное обеспе­чение. Продукты с проверкой голоса сейчас предлагают более 20 компаний.
Компания Keyware Technologies, например, поставляет OEM-производителям свой комплект программ для разработчиков VoiceGuardian. Уровень равной вероятности ошиб­ки этой системы составляет 2—5% — это более низкая достоверность по сравнению с большинством остальных систем. Но данная технология хорошо подходит для верифи­кации по голосу через коммутируемую телефонную сеть и она более надежна по сравне­нию с технологией частотного набора персональ­ного идентификационного номера (PIN).
Основная проблема, связанная с этим биомет­рическим подходом, —точность идентификации.
Однако это не является серьезной проблемой с того момента, как устройства идентификации
личности по голосу различают характеристики человеческой речи. Голос формируется из ком­бинации физиологических и поведенческих фак­торов. В настоящее время идентификация по го­лосу используется для управления доступом


Источник ; звука ;
: Звуковая Датчик ; плата
звуковых : колебаний :
Схема ввода речевых сообщений в компьютер
в помещение средней степени безопасности, например, лаборатории и компьютерные классы. Идентификация по голосу удобный, но в тоже время не такой надежный, как другие биометрические методы. Например, человек с простудой или ларингитом мо­жет испытывать трудности при использовании данных систем. Существует также воз­можность воспроизведения звукозаписи с магнитофона.
Технология распознавания голоса — вероятно, наиболее практичное решение для большинства сетевых приложений, во всяком случае, на данный момент. Системы рас­познавания голоса анализируют характеристики оцифрованной речи, в том числе ее тон, высоту и ритм.
Несмотря на остающиеся технические вопросы, в частности, на снижение надеж­ности распознавания при наличии шумов, это весьма экономичное решение, так как микрофоны и звуковые карты уже давно получили прописку в сети. Схема ввода рече­вых сообщений в компьютер представлена на рис.
Как известно, источником речевого сигнала служит речеобразующий тракт, ко­торый возбуждает звуковые волны в упругой воздушной среде. Сформированный речевой сигнал и передается в пространстве в виде звуковых волн. Приемник сиг­нала — это датчик звуковых колебаний. Обычно для этих целей используют мик­рофон — устройство для преобразования звуковых колебаний в электрические. Существует большое количество типов микрофонов (угольные, электродинамичес­кие, электростатические, пьезоэлектрические и др.). Но в микрофонах любого типа чувствительным элементом является упругая мембрана, посредством которой пе­редается колебательный процесс под воздействием звуковых волн. Мембрана свя­зана с элементом, который преобразует колебания мембраны в электрический сиг­нал.


С выхода микрофона сигнал подается на вход звуковой карты персонального ком­пьютера. При записи звуковая карта представляет собой аналого-цифровой преобра­зователь с широкими возможностями настройки параметров оцифровки. Основными параметрами является частота дискретизации и разрядность кодирования. Данные параметры определяют качество и размер выборки, получаемой в результате записи. Причем размер записи и ее качество прямо пропорциональны, т. е. чем выше качество записи, тем больше ее размер.
Чтобы обеспечить компромисс между качеством и размером, воспользуемся зна­ниями о свойствах человеческого голоса при выборе параметров аналого-цифрового преобразования.
К настоящему моменту у нас и за рубежом реализованы системы автоматической идентификации по голосу, большинство из которых строятся по единой концептуаль­ной схеме:
производится регистрация пользователя и вычисляется шаблон;
□ выбираются участки речевого потока для дальнейшего анализа;
осуществляется первичная обработка сигнала; вычисляются первичные параметры; строится «отпечаток» (шаблон) голоса;
□ производится сравнение «отпечатков» голосов и формируется решение по иден­тичности голосов или «близости» голоса к группе голосов.
Рассмотрим более подробно каждый из этапов.
На этапе регистрации новый пользователь вводит свой идентификатор, например, имя и фамилию, а затем произносит несколько раз ключевое слово или фразу (созда­ются эталоны). Число повторов ключевой фразы может варьироваться для каждого
пользователя, а может быть постоянным для всех. После предварительной обработки фрагменты попарно сравниваются, и на основе их степени сходства вычисляется зна­чение «отпечатка» (шаблона).
Для выбора фрагментов фонограммы, с целью извлечения необходимых парамет­ров, существует несколько подходов. Например, часто применяют метод, в котором используется весь речевой сигнал за исключением пауз. Также существует метод выбо­ра опорных сегментов — наиболее информативных участков речевого сигнала. При этом выбирают наиболее энергетически мощные звуки, т. к. они менее зависимы от шумов и искажений. В основном это гласные и звонкие согласные, произношение которых хоро­шо отражает работу голосовых связок и речевого тракта. Эти звуки обязательно имеют ярко выраженную неравномерность спектральной характеристики и именно в них выра­жена индивидуальная особенность мышечной активности речевого тракта личности.
Вероятность присутствия характерных индивидуальных особенностей голоса лич­ности в 18 фонемах русского языка приведена в табл. 3.3, которая упорядочивает по информативности фонемы русского языка с позиций решения задачи идентификации личности. Фонема — это единица языка, с помощью которой различаются и отожде­ствляются морфемы и тем самым слова (проще говоря — звуки). Наиболее информа­тивны фонемы, расположенные в левой части таблицы. В правой части таблицы поме­щены фонемы, малоинформативные для целей идентификации личности, так как они позволяют узнавать диктора с вероятностью 0,5 и менее. Эти фонемы могут отражать особенности голоса личности только в сочетании с другими звуками.


Таблица 3.3. Вероятность распознавания личности по одной изолированной фонеме
гоонема_э     олаи     з     рв     жм     г     у       ч  ц     х     с    ш к
Вероятность 0,90 0,86 0,84 0,83 0,83 0,79 0,78 0,76 0,74 0,62 0,61 0,60 0,54 0,50 0,48 0,44 0,37 0,30
В процессе первичной обработки сигнала производится оценка спектральных пара­метров речи. Первые системы идентификации личности по особенности голоса строились исходя из частотных представлений и возможностей средств аналоговой фильтрации. В основу ихработы положена различнаятембральная окраска голосов и индивидуальная неравномерность распределения мощности произносимой фразы по частотному спектру. Базовыми процедурами для этого класса устройств являются узкополосная фильтрация сигнала и восстановление его огибающей. Например, подобная система фирмы Texas Instruments использует гребенку из 16-и узкополосных фильтров с шириной полосы 220 Гц, равномерно накрывающей частотный диапазон от 300 до 3000 Гц. Структура ана­логовой части системы голосовой идентификации приведена произношении контрольной фразы система идентификации осуществляет при­ведение сигнала к единому масштабу амплитуд за счет работы АРУ входного усилите­ля. Полосовые фильтры и детекторы огибающей их откликов позволяют получить 16 функций времени А1 (t), A2(t),..., А16(t), характеризующих распределение энергии зву­кового сигнала по частотному спектру. Функция A0(t) описывает изменения значения энергии полного сигнала во всем диапазоне звуковых частот. При обучении система
запоминает наиболее вероятные эталонные значения функций Ak(t) для конкретной
личности и допустимые коридоры отклонений для этих функций.
Первичные параметры речевого сигнала должны обладать следующими свой­ствами:
отражать индивидуальность диктора;
быть легко и надежно выделяемы из сигнала;
мало зависеть от мешающих факторов;
быть инвариантными к эмоциональному и физическому состоянию диктора; □ слабо поддаваться имитации.
В качестве первичных параметров обычно используются такие характеристики ре­чевого сигнала, как АЧХ, основной тон, форманты, расстояние между обертонами, формы импульсов возбуждения, длительность отдельных звуков и т. п.
Как правило, при произнесении парольной фразы длительности составляющих ее звуков и пауз между ними могут варьироваться в пределах от 10 до 50%. Для компен­сации временной нестабильности произнесения диктором парольных фраз можно ис­пользовать два способа:
подгонка под эталон путем сжатия и растяжения участков, соответствующих отдельным звукам, средствами динамического программирования;
G выделение центра звуковой области и идентификационные измерения в окрест­ностях центральной части фонемы, тогда абсолютные значения длительностей
фонем и пауз между ними не играют существенной роли. По полученным на предыдущем этапе параметрам, исходя из выбранной матема­тической модели, строится «отпечаток» голоса. Далее производится сравнительный анализ отпечатков голосов.Анализировать можно различными способами, начиная от простых статистических методов и заканчивая тем, что решение принимается нейро-сетью и/или сложной системой искусственного интеллекта.
Задача идентификации возникает тогда, когда необходимо найти ближайший голос (или несколько голосов) из фонотеки к рассматриваемой фонограмме. Необходимость автоматизации этой задачи напрямую зависит от количества голосов в фонотеке, уровня эксперта и необходимой оперативности принятия решения.
Обычно после задачи идентификации приходится решать вторую задачу, в которой подтверждается или опровергается принадлежность фонограммы конкретному голо­су, т. е. задачу верификации.
Решение задачи идентификации позволяет решать задачу верификации не на всей фонотеке, а только на группе ближайших голосов, что значительно сокращает время обработки фонограммы.
Описанныйвышечастотныйподходкидентификацииличностимогбыть реализован средствами аналоговой фильтрации уже 30—40лет назад и именно по этой причине в то время произошел всплеск интереса к этому классу систем голосовой идентификации. По мере развития средств вьгаислительной техники и методов цифровой фильтрации, интерес к частотным методам идентификации замещается на интерес к системам, при­меняющим линейные предсказатели речевого сигнала. Системы идентификации с ли­нейным предсказанием речи используют описание сигнала во временной области. При­мер описания во временной области парольной фразы «ПАРОЛЬ» приведен основу кодирования речи методом линейного предсказания положена волновая структура речевого сигнала, особенно хорошо наблюдаемая при произношении глас­ных. выделен фрагмент парольной фразы, соответствующий гласной «О» и состоящий из последовательности затухающих волн, возбуждаемых говорящим с периодом основного тона. Соседние волны волновой пачки достаточно похожи друг на друга. Метод линейного предсказания построен на аппроксимации соседних волн в
звуковой пачке переходным процессом некоторого линейного цифрового фильтра.
При описании звукового сигнала методом линейного предсказания исходный сиг­нал разбивают на отдельные интервалы анализа фиксированной длины (обычно длина интервала анализа составляет 20 мс.). Далее определяют тип звука внутри интервала


пароль анализа (шум или тональный звук). Если
внутри интервала находится шумовой учас­ток, тогда определяют только его энергети­ческие параметры. Если внутри интервала анализа присутствует тональный фрагмент, то сигнал дополнительно описывают путем задания коэффициентов линейного предска­зателя (линейного цифрового фильтра) и задания периода импульсов основного тона, возбуждающих переходные процессы на выходе линейного предсказателя.
В качестве недостатка биометрических систем идентификации личности по голосу необходимо отметить, прежде всего, то, что
парольную фразу трудно сохранить в тайне. Структура речевого сигнала      Современные федстю акустического прослу-парольной фразы шивания (радиожучки и другие подслушива-
ющие устройства) позволяют достаточно ус­пешно осуществлять несанкционированное копирование парольной фразы. Ожидается, что исключение опасности использования злоумышленниками «магнитофонов» произой­дет при переходе к идентификации личности на произвольных фразах. Как потенциальное противодействие «магнитофонам» используют случайный розыгрыш парольных фраз, а также комбинирование с другими методами биометрической аутентификации.
Методы голосовой идентификации применяют и на практике. Технология верифи­кации говорящего компании Veri Voice обеспечивает доступ к закрытым страницам Web с удаленного компьютера; удаленный доступ посредством идентификации голоса и Remote Access Server (RAS) компании Microsoft, двухуровневую идентификацию с помощью верификации голоса и смарт-карт при доступе к локальным и удаленным приложениям. Для регистрации система «просит» пользователя произнести пароль — последовательность случайных цифр. Голосовой отпечаток занимает обычно от 2 до 5 кбайт, а фраза-пароль длится около двух секунд звучания.

 

На главную | Содержание | Назад | Вперёд
 
Яндекс.Метрика