В настоящее время, в связи с бурным развитием технологий компьютерной обработки звука часто встает задача автоматического определения степени похожести музыкальных композиций. Данная мера степени похожести называется метрикой. Качественный метрический алгоритм, который выдает адекватный на слух результат незаменим при кодировании звука с потерями, при разработке алгоритмов восстановления высоких частот, отфильтрованных при сжатии, и т.п. Алгоритм можно применять как при разработке аудио кодека для проверки качества кодирования звука и сравнения с другими аналогичными кодеками, так и в процессе кодирования для кодирования в режиме <постоянного качества>.
Наиболее простой класс метрик сравнения качества звука - это сравнение звукового сигнала по форме волны. В этой ситуации сравнивается значение сигналов для каждого момента времени. Например, можно сравнивать максимальное отклонение амплитуд сигналов.
![]()
это значения амплитуды двух сигналов.
Такая метрика будет крайне чувствительна к единичным отличиям в амплитудах сигналов
Другим критерием оценки может служить среднеквадратичное отклонение амплитуд сигналов RMS (root mean square):

На практике используется модификация данной меры, называемая PSNR (peak-to-peak signal-to-noise ratio).
, где mA - максимально возможная амплитуда сигнала
По сравнению с RMS данная мера хороша тем, что исчисляется в логарифмической шкале по амплитуде (в децибелах). Это важно, т.к. человеческое ухо воспринимает сигнал также в логарифмической шкале по амплитуде и поэтому усиление амплитуды сигнала в два раза не означает для человека усиления громкости звука во столько же раз.
Одним из недостатков данной меры является высокая чувствительность к среднему отличию сигналов по амплитуде, что может привести к ошибочному результату, в случае, когда сигналы немного отличаются в среднем по амплитуде. Для контроля ошибок такого рода можно использовать данную метрику совместно с расчетом средне интегрального значения для сравниваемых файлов:
; 
В сигналах, у которых совпадают средне интегральные значения, совпадает и средняя амплитуда, что означает возможность применения PSNR меры.
Остается еще несколько проблем, которые затрудняют использование этой меры. Вот наиболее важные из них:
PSNR метрика не может учитывать различную чувствительность уха в разных частотных полосах, а при сравнении двух разных сигналов с белым шумом скорее всего даст заключение о том, что они совершенно различны.
Качественно другой метод сравнения - сравнение спектрограмм, построенных по входному сигналу. Для получения данной метрики входные сигналы сначала последовательно покрываются небольшими интервалами с некоторым шагом dt по времени. В каждом из этих интервалов сигнал раскладывается в ряд Фурье, после чего строиться спектр (без учета фаз частотных составляющих). Полученные спектры записываются в двумерный массив (время, частота) - спектрограмму (рис 3).
Амплитуды значений спектрограммы в каждой конкретной области также представляются в логарифмической шкале.
Можно построить подобную PSNR-мере метрику для сравнения полученных двумерных массивов-спектрограмм.
Преимущества данной метрики над описанной выше будет состоять в том, что можно сравнивать значения сигнала, согласно данным о восприятии человеком той или иной частотной составляющей. То есть производить сравнение по формуле:
Sa, Sb - двумерные массивы
амплитуд спектрограмм двух входных сигналов a и b.
где коэффициент a зависит от чувствительности уха в данной j-ой частотной полосе, значения для которой получаются экспериментально и аналогичны значением на рис 1.
Функция, изображенная на рисунке 1, может быть аппроксимирована следующим образом:
![]()
Для данного метода, как и для амплитудно-временной PSNR, так же необходимо, чтобы сигналы содержали одинаковую энергию, то есть среднеквадратичное отклонение в спектрах для всего звукового сигнала должно быть минимальным. По сравнению с обыкновенной PSNR метрикой в данной мере практически решается проблема сравнения сигналов с различными амплитудами и учитывается неравномерная чувствительность уха к различным частотным составляющим.
Для тестирования качества сжатия звуковых кодеков более правильно применять модификацию данного метода: Из спектрограммы последовательно высекается несколько частотных полос, и в них считается среднеквадратичное отклонение.
Частотные полосы выбираются неодинаковой ширины, т.к. содержательной информации для человеческого уха в районе одного килогерца больше, чем в районе двадцати килогерц, следовательно и полосы в низкочастотной области берутся уже, чем в высокочастотной.

Преимущество данного метода в том, что возможно сравнение звуковых сигналов, обработанных фильтром низких частот для уменьшения количества кодируемой информации. В этом случае такие сигналы можно сравнивать только по тем частотным полосам, которые кодек сохранял. Также в данном случае не обязательно, чтобы кодек правильно сохранял энергию во всем частотном пространстве. При корректном сохранении энергии сигнала в частотной полосе можно будет достаточно верно посчитать среднее отличие звука в этой полосе. На рис. 4 изображено неправильное сохранение энергии как в среднечастотной области, так и в высокочастотной. На средних частотах второй сигнал имеет большую мощность, чем первый, а на высоких частотах сигнал наоборот отфильтрован.
Одним из недостатков является малое разрешение как по частоте, так и по времени.
В международном стандарте ISO/R-226 (таблица 1) приняты за стандартные следующие значения порогов слышимости (громкоговоритель размещен в свободном поле на оси, слушатели в возрасте 18:30лет):
|
Таблица 2 | |||||||
|
Частота, Гц |
125 |
250 |
500 |
1000 |
2000 |
4000 |
8000 |
|
Уровень, дБ |
45 |
25,5 |
11,5 |
7,0 |
9,0 |
9,5 |
13,0 |
Однако для построения качественной меры, адекватной человеческому восприятию звука, не достаточно использовать только знания о неравномерной чувствительности уха к различным частотным составляющим в звуке. Также необходимо принимать во внимание следующие факты, полученные экспериментальным путем:
На данный момент использование эффекта слуховой маскировки - один из самых широко используемых способов дополнительного уменьшения звуковой информации. Данный эффект относиться не к особенностям уха, а к особенностям строения головного мозга человека.
Маскирование по частоте:
Допустим, есть определенный тон, на фоне этого тона будут не слышны другие звуки, близкие по частоте. На рисунке 5 представлены зависимости степени маскирования различных тонов с частотами 500 Гц, 1000, 2000 и 4000 на пунктах а, б, в и г соответственно.

Видно, что маскирующий тон лучше скрывает более высокие частоты, чем его собственная частота
Маскирование во времени:

Если есть интенсивный сигнал-маскер, то незадолго перед тем как он начинает звучать и некоторое время после того как он звучать перестает, человек не в состоянии уловить некоторые сигналы. Зависимость между уровнем сигнала-маскера и уровнем сигнала, который можно замаскировать, нелинейна; так, экспериментально получено, что увеличение амплитуды маскера на 10 дБ позволяет увеличить порог маскирования всего на 3 дБ. Продолжительность сигнала маскера влияет на степень маскирования в основном только на сигналы идущие перед маскером, и, в целом, предшествующий маскеру сигнал маскируется лучше, чем идущий после.
В результате вышеописанного анализа входного сигнала можно построить карту допустимых психоакустических порогов, изменение сигнала в пределах которых не будет замечено среднестатистическим человеком. Соответственно, при сравнении сигналов друг с другом, необходимо сравнивать уже не непосредственно отклонение одного сигнала от другого (или отличия их спектрограмм), а данные о допустимых психоакустических порогах в данной точке на спектрограмме с данными об отличии значений спектрограммы одного файла от другого. Психоакустические пороги можно получать с меньшим разрешением по частоте, разбивая все частотное пространство исходного сигнала (рисунок 7.а) на несколько полос, согласно их значимости для человеческого восприятия. В результате, можно получить двумерный массив из областей dT*dF со значением порогов P(dT,dF), представленный на рис 7.в. Аналогичным образом разделяя сигналы на частотные полосы, можно получить среднее отклонения между сигналами в области dT*dF:

Результирующий массив, для сигналов 5.а и 5.б по всем dT и dF представлен на рисунке 7.г. Следующий шаг - взятие отношения Dсред(dT,dF)/P(dT,dF) по всем областям dT*dF, в результате чего получается массив, иллюстрирующий степень отличия второго сигнала от первого на слух (рисунок 7.д). Последующее усреднение полученных значений по времени дает возможность оценивать ту степень, в которой сигналы в заданной частотной полосе отличаются на слух, в присутствии всех остальных частотных составляющих.

Из всех вышеприведенных данная метрика дает результат, наиболее похожий на субъективное сравнение звуков человеком.
Таким образом, на настоящий момент существует ряд подходов для автоматизации сравнения качества звучания звуковых фрагментов, среди которых можно выделить метрики с использованием карты психоакустических порогов. Однако модели, точно отвечающей всем нюансам человеческого восприятия, пока не существует.
Комментарии
Отправить комментарий