Метрики для сравнения звуковых сигналов с учетом особенностей человеческого слуха

Авторы: 
Валентин Вербовой
В настоящее время, в связи с бурным развитием технологий компьютерной обработки звука часто встает задача автоматического определения степени похожести музыкальных композиций. В статье приводится постановка задачи и обзор метрик для сравнения звуковых сигналов с учетом особенностей человеческого восприятия слуха.

Содержание

  1. Метрика и ее назначение.
  2. Простейшие метрики (амплитудно-временные).
  3. Проблемы, которые не может решить амплитудно-временная метрика.
  4. Частотно-временные метрики и психоакустика.
  5. Частотное и временное маскирование.
  6. Схема работы метрики с использованием психоакустики.
  7. Заключение.
  8. Литература.

Метрика и ее назначение

В настоящее время, в связи с бурным развитием технологий компьютерной обработки звука часто встает задача автоматического определения степени похожести музыкальных композиций. Данная мера степени похожести называется метрикой. Качественный метрический алгоритм, который выдает адекватный на слух результат незаменим при кодировании звука с потерями, при разработке алгоритмов восстановления высоких частот, отфильтрованных при сжатии, и т.п. Алгоритм можно применять как при разработке аудио кодека для проверки качества кодирования звука и сравнения с другими аналогичными кодеками, так и в процессе кодирования для кодирования в режиме <постоянного качества>.

Простейшие метрики (амплитудно-временные)

Наиболее простой класс метрик сравнения качества звука - это сравнение звукового сигнала по форме волны. В этой ситуации сравнивается значение сигналов для каждого момента времени. Например, можно сравнивать максимальное отклонение амплитуд сигналов.

, где векторы a и b -

это значения амплитуды двух сигналов.

Такая метрика будет крайне чувствительна к единичным отличиям в амплитудах сигналов

Другим критерием оценки может служить среднеквадратичное отклонение амплитуд сигналов RMS (root mean square):

На практике используется модификация данной меры, называемая PSNR (peak-to-peak signal-to-noise ratio).

, где mA - максимально возможная амплитуда сигнала

По сравнению с RMS данная мера хороша тем, что исчисляется в логарифмической шкале по амплитуде (в децибелах). Это важно, т.к. человеческое ухо воспринимает сигнал также в логарифмической шкале по амплитуде и поэтому усиление амплитуды сигнала в два раза не означает для человека усиления громкости звука во столько же раз.

Одним из недостатков данной меры является высокая чувствительность к среднему отличию сигналов по амплитуде, что может привести к ошибочному результату, в случае, когда сигналы немного отличаются в среднем по амплитуде. Для контроля ошибок такого рода можно использовать данную метрику совместно с расчетом средне интегрального значения для сравниваемых файлов:

;

В сигналах, у которых совпадают средне интегральные значения, совпадает и средняя амплитуда, что означает возможность применения PSNR меры.

Проблемы, которые не может решить амплитудно-временная метрика

Остается еще несколько проблем, которые затрудняют использование этой меры. Вот наиболее важные из них:

  1. Человеческое ухо имеет разную чувствительность к искажениям в разных частях частотного диапазона, так как имеет разную чувствительность к звуку на разных частотах. (рис.1) Искажения на низких и средних частотах человек слышит лучше, чем на высоких. Это связано с тем, что ухо в первую очередь приспособлено воспринимать речь, основной диапазон частот которой лежит в области 50-5000Гц.
  2. Человек одинаково слышит звуки, которые могут сильно отличаться по форме волны. Например, белый шум будет слышаться человеку одинакого, вне зависимости от того, какой формы будет сигнал, содержащий белый шум.
  

PSNR метрика не может учитывать различную чувствительность уха в разных частотных полосах, а при сравнении двух разных сигналов с белым шумом скорее всего даст заключение о том, что они совершенно различны.

Частотно-временные метрики и психоакустика

Качественно другой метод сравнения - сравнение спектрограмм, построенных по входному сигналу. Для получения данной метрики входные сигналы сначала последовательно покрываются небольшими интервалами с некоторым шагом dt по времени. В каждом из этих интервалов сигнал раскладывается в ряд Фурье, после чего строиться спектр (без учета фаз частотных составляющих). Полученные спектры записываются в двумерный массив (время, частота) - спектрограмму (рис 3).

Амплитуды значений спектрограммы в каждой конкретной области также представляются в логарифмической шкале.

Можно построить подобную PSNR-мере метрику для сравнения полученных двумерных массивов-спектрограмм.

Преимущества данной метрики над описанной выше будет состоять в том, что можно сравнивать значения сигнала, согласно данным о восприятии человеком той или иной частотной составляющей. То есть производить сравнение по формуле:

Sa, Sb - двумерные массивы амплитуд спектрограмм двух входных сигналов a и b.

где коэффициент a зависит от чувствительности уха в данной j-ой частотной полосе, значения для которой получаются экспериментально и аналогичны значением на рис 1.

Функция, изображенная на рисунке 1, может быть аппроксимирована следующим образом:

Для данного метода, как и для амплитудно-временной PSNR, так же необходимо, чтобы сигналы содержали одинаковую энергию, то есть среднеквадратичное отклонение в спектрах для всего звукового сигнала должно быть минимальным. По сравнению с обыкновенной PSNR метрикой в данной мере практически решается проблема сравнения сигналов с различными амплитудами и учитывается неравномерная чувствительность уха к различным частотным составляющим.

Для тестирования качества сжатия звуковых кодеков более правильно применять модификацию данного метода: Из спектрограммы последовательно высекается несколько частотных полос, и в них считается среднеквадратичное отклонение.

Частотные полосы выбираются неодинаковой ширины, т.к. содержательной информации для человеческого уха в районе одного килогерца больше, чем в районе двадцати килогерц, следовательно и полосы в низкочастотной области берутся уже, чем в высокочастотной.

Преимущество данного метода в том, что возможно сравнение звуковых сигналов, обработанных фильтром низких частот для уменьшения количества кодируемой информации. В этом случае такие сигналы можно сравнивать только по тем частотным полосам, которые кодек сохранял. Также в данном случае не обязательно, чтобы кодек правильно сохранял энергию во всем частотном пространстве. При корректном сохранении энергии сигнала в частотной полосе можно будет достаточно верно посчитать среднее отличие звука в этой полосе. На рис. 4 изображено неправильное сохранение энергии как в среднечастотной области, так и в высокочастотной. На средних частотах второй сигнал имеет большую мощность, чем первый, а на высоких частотах сигнал наоборот отфильтрован.

Одним из недостатков является малое разрешение как по частоте, так и по времени.

В международном стандарте ISO/R-226 (таблица 1) приняты за стандартные следующие значения порогов слышимости (громкоговоритель размещен в свободном поле на оси, слушатели в возрасте 18:30лет):

Таблица 2

Частота, Гц

125

250

500

1000

2000

4000

8000

Уровень, дБ

45

25,5

11,5

7,0

9,0

9,5

13,0

Однако для построения качественной меры, адекватной человеческому восприятию звука, не достаточно использовать только знания о неравномерной чувствительности уха к различным частотным составляющим в звуке. Также необходимо принимать во внимание следующие факты, полученные экспериментальным путем:

  1. Динамический диапазон воспринимаемых человеком звуков от самого тихого до самого громкого составляет порядка 96 дБ.
  2. Человек в состоянии различать изменение частоты на 0.3 % на частоте 1000 Гц.
  3. Две гармоники, находящиеся на близких частотах могут сливаться в одну.
  4. Частотное маскирование. Более сильный звук маскирует близкие по частоте тихие звуковые составляющие.
  5. Временное маскирование. Перед и после резкой звуковой атаки человек не способен подробно различать звуки.

Частотное и временное маскирование.

На данный момент использование эффекта слуховой маскировки - один из самых широко используемых способов дополнительного уменьшения звуковой информации. Данный эффект относиться не к особенностям уха, а к особенностям строения головного мозга человека.

Маскирование по частоте:

Допустим, есть определенный тон, на фоне этого тона будут не слышны другие звуки, близкие по частоте. На рисунке 5 представлены зависимости степени маскирования различных тонов с частотами 500 Гц, 1000, 2000 и 4000 на пунктах а, б, в и г соответственно.

Видно, что маскирующий тон лучше скрывает более высокие частоты, чем его собственная частота

Маскирование во времени:

Если есть интенсивный сигнал-маскер, то незадолго перед тем как он начинает звучать и некоторое время после того как он звучать перестает, человек не в состоянии уловить некоторые сигналы. Зависимость между уровнем сигнала-маскера и уровнем сигнала, который можно замаскировать, нелинейна; так, экспериментально получено, что увеличение амплитуды маскера на 10 дБ позволяет увеличить порог маскирования всего на 3 дБ. Продолжительность сигнала маскера влияет на степень маскирования в основном только на сигналы идущие перед маскером, и, в целом, предшествующий маскеру сигнал маскируется лучше, чем идущий после.

Схема работы метрики с использованием психоакустики.

В результате вышеописанного анализа входного сигнала можно построить карту допустимых психоакустических порогов, изменение сигнала в пределах которых не будет замечено среднестатистическим человеком. Соответственно, при сравнении сигналов друг с другом, необходимо сравнивать уже не непосредственно отклонение одного сигнала от другого (или отличия их спектрограмм), а данные о допустимых психоакустических порогах в данной точке на спектрограмме с данными об отличии значений спектрограммы одного файла от другого. Психоакустические пороги можно получать с меньшим разрешением по частоте, разбивая все частотное пространство исходного сигнала (рисунок 7.а) на несколько полос, согласно их значимости для человеческого восприятия. В результате, можно получить двумерный массив из областей dT*dF со значением порогов P(dT,dF), представленный на рис 7.в. Аналогичным образом разделяя сигналы на частотные полосы, можно получить среднее отклонения между сигналами в области dT*dF:

;

Результирующий массив, для сигналов 5.а и 5.б по всем dT и dF представлен на рисунке 7.г. Следующий шаг - взятие отношения Dсред(dT,dF)/P(dT,dF) по всем областям dT*dF, в результате чего получается массив, иллюстрирующий степень отличия второго сигнала от первого на слух (рисунок 7.д). Последующее усреднение полученных значений по времени дает возможность оценивать ту степень, в которой сигналы в заданной частотной полосе отличаются на слух, в присутствии всех остальных частотных составляющих.

; где T - число шагов по времени.

Из всех вышеприведенных данная метрика дает результат, наиболее похожий на субъективное сравнение звуков человеком.

Заключение

Таким образом, на настоящий момент существует ряд подходов для автоматизации сравнения качества звучания звуковых фрагментов, среди которых можно выделить метрики с использованием карты психоакустических порогов. Однако модели, точно отвечающей всем нюансам человеческого восприятия, пока не существует.

Литература

  1. Ted Painter "Perceptual Coding of Digital Audio" Proceedings of IEEE, Vol. 88 No. 4, 2000 г
  2. David J M Robinson, Malcolm O J Hawksford, "PSYCHOACOUSTIC MODELS AND NON-LINEAR HUMAN HEARING", http://www.david.robinson.org/papers.html, 2000 г.
  3. Frank Baumgarte, Charalampos Ferekidis, Hendrik Fuchs, "A Nonlinear Psychoacoustic Model Applied to the ISO MPEG Layer 3 Coder", http://www.tnt.uni-hannover.de/project/coding/audio/perception/publications.html, 1995 г.
  4. "Будущее цифровой музыки: mp3pro", http://www.intel.com/ru/home/maximize/experience/music/mp3/how/psychoaccoustics.htm, (http://www.iis.fhg.de/amm/techinf/layer3/)
  5. Костин В., "Психоакустические критерии качества звучания и выбор параметров УМЗЧ", Радио №12, 1987 г.
  6. Дмитрий Михайлов, "Что и как мы слышим", http://websound.ru/index.cgi?articles/theory/ear
  7. Дмитрий Шмунк, "Восприятие и сжатие звука", http://websound.ru/index.cgi?articles/theory/earcompr, 2000 г.
  8. Ирина Алдошина, "Основы Психоакустики", "Звукорежисер", номера 1-10, http://www.625-net.ru/arch.htm#zvukoregisser, 2000 г.
  9. Auditory Analysis and Sensorineural Hearing Loss, http://www.cpl.umn.edu/auditory.htm


Дополнительная информация
Ссылка: 
Валентин Вербовой. Метрики для сравнения звуковых сигналов с учетом особенностей человеческого слуха. Компьютерная графика и мультимедиа. Выпуск №3(1)/2005. http://cgm.computergraphics.ru/content/view/73
Выпуск: 
Выпуск №3(1)/2005

Комментарии

Отправить комментарий

Содержание этого поля является приватным и не предназначено к показу.
  • Адреса страниц и электронной почты автоматически преобразуются в ссылки.
  • Allowed HTML tags: <a> <em> <strong> <cite> <code> <ul> <ol> <li> <dl> <dt> <dd>
  • Строки и параграфы переносятся автоматически.

Подробнее о форматировании

CAPTCHA
Тест предназначен для отсеивания спама
Fill in the blank