"Человек - самое уязвимое место в системе безопасности.."
Главная » Защита информации - Разное » Идентификация человека по голосу

Идентификация человека по голосу

В нашем мире все чаще проявляется интерес к технологиям идентификации человеческого голоса. С одной стороны это объясняется реализацией высокопроизводительных систем которые могут считать сложные сигналы к примеру голоса. Методы распознавания личности по голосу есть с тех пор, как человек научился говорить. Плюсы и минусы нам известны уже. Плюсы такого метода это удобство в применении. На сегодня более 20 компаний могут предоставляют свои продукты с реализацией такого метода аутентификации в информационную систему. К примеру компания Keyware Technologies реализует продукцию с вероятностной ошибкой в 2-5%. такая технология отлично реализуется с помощью коммутируемой телефонной сетью. Основная проблема, которая связанна с таким подходом — это точность идентификации. Голос создается из комбинаций поведенческих и физиологических факторов. На сегодня идентификация по голосу реализована для управление доступом в помещения, где объективная оценка степени безопасности не критическая. Но к примеру человек с болезнью горла или простудой испытает трудности с такой системой.

Технология распознавания голоса — возможно самое практичное решения для множества приложений. такие системы анализируют характеристики уже после оцифровыванния, смотрят высоту, тон и ритм. Схема ввода голосовых сообщений показана на рис.1. Несмотря на снижение надежности в плане распознавания с наличием шумов, это все равно выгодное экономическое решение, так как звуковые карты и микрофоны уже давно прописаны в сети.

схема ввода речевых сообщений

Рисунок — 1

Есть множество разных микрофонов, но принцип работы у них один. звуковая волна ударяется об мембрану, где колебания мембраны передаются на упругий элемент который преобразует колебания в электрический сигнал. Сигнал усиливается и подается на вход звуковой карты. Звуковая карта это аналого-цифровой преобразователь. Основные параметры это разрядность кодирования и частота дискретизации. Данные параметры на прямую влияют на качество записи, а в следствии и на размер самой записи. Системы идентификации голоса работает по следующей схеме:

  • Создается регистрация пользователя и делается расчет шаблона.
  • Выбираются временные диапазоны речевого потока для анализа.
  • Реализуется первичная обработка сигнала.
  • Считаются первичные параметры.
  • Создается отпечаток-шаблон голоса.
  • Сравниваются шаблон и другие шаблоны уже имеющийся в базе.

При регистрации пользователь вводит свой идентификатор, к примеру ФИО и говорит несколько раз ключевую фразу. После первой обработки фрагменты сравниваются, и вычисляются сходства для отпечатка.

При выборе участков фрагментов, применяют разные способы. Можно использовать весь речевой поток исключая паузы. Можно же выбрать фрагменты где самые мощные звуки, так как там вероятность шумов самая маленькая. Также можно выбирать гласные звуки, так как по ним можно определить характер произношения и тд.

На рис.2. показа вероятность присутствия определенных особенности голоса личности в 18 фонемах.

вероятность распознавания по изолированой фонеме

Рисунок — 2

В процессе первой обработки сигнала идет анализ спектральных параметров речи. Базовой процедурой есть узкополосная фильтрация сигнала и восстановление огибающей. При произношении контрольной фразы сигнал приводится к единому масштабу амплитуд засчет усилителя. Первичные параметры сигнала имеют свойства:

  • отражения индивидуальности диктора
  • не зависеть от шумов
  • легко выделяемыми из сигнала
  • быть независимыми к физическому и эмоциональному стану диктора
  • мало поддаваться имитации

Первичные параметры могут использовать АЧХ, фон, расстояние между обертонами, форманты, длительность отдельных звуков и тд. При произношении паузка между звуками может меняться в пределах 10 — 50%. Для компенсации такой нестабильности можно использовать следующие способы:

  • Сжатие или растяжение отдельных участков.
  • Выделение центра звуковой области, тогда измерения вокруг центра не играют сильную роль.

Недостатком таких систем также есть то, что тайную фразу сложно сохранить в тайне. Так как при произношении фразы ее можно записать разными радиозаписывающими устройствами. Голосовой шаблон занимает примерно 2-5 Кбайт, а фраза длится не дольше 2-3 секунд.

Смотрите также: