Что и как мы слышим

Реклама на сайте

Что и как мы слышим

Публикация от: 17-06-2010, 01:25

Все процессы записи, обработки и воспроизведения звука, так или иначе, работают на один орган, которым мы воспринимаем Звуки - ухо. Без понимания того, что и как мы слышим, что нам важно, а что нет, в чем причина тех или иных музыкальных закономерностей - без этих и других мелочей невозможно спроектировать хорошую аудио аппаратуру, нельзя эффективно сжать или обработать звук. То, о чём я расскажу - лишь самые основы (Да всего описать и не получится в рамках этой публикации).
- процесс звуковосприятия еще далеко не до конца изучен, однако, изложенные здесь факты могут показаться интересными даже тем, кто знает, что такое децибел...

Немного анатомии
(устройство уха - коротко и ясно)

Снаружи мы видим так называемое внешнее ухо (ушная раковина). Затем идет канал - примерно 0.5 см в диаметре и около 3 см в длину (слуховой проход (если ухо загрязнено, страдает качество слуха)).
Затем - барабанная перепонка (мембрана), к которой присоединены косточки - среднее ухо. Эти косточки передают вибрацию барабанной перепонки далее - на другую перепонку,
во внутреннее ухо - трубку с жидкостью, около 0.2 мм диаметром и, приблизительно, 3-4 см длинной, закрученную как улитка. Смысл наличия среднего уха в том, что колебания воздуха слишком слабы, чтобы напрямую сниматься с барабанной перепонки, и среднее ухо вместе с барабанной перепонкой и перепонкой внутреннего уха составляют гидравлический усилитель - площадь барабанной перепонки во много раз больше площади перепонки (мембраны) внутреннего уха, поэтому давление (которое равно F/S) усиливается в десятки раз.
Во внутреннем ухе, по всей его длине, еще одна вытянутая мембрана, жесткая к началу уха и мягкая к концу. Каждый участок этой мембраны колеблется в определённом частотном диапазоне, низкие частоты - в мягком участке ближе к концу, самые высокие - в самом начале. Вдоль этой мембраны расположены нервы, которые воспринимают колебания и передают их в мозг, используя два принципа:
Первый - ударный принцип. Поскольку нервы еще способны передавать колебания (бинарные импульсы) с частотой до 400-450 Гц, именно этот принцип влоб используется в области низкочастотного слуха. Там сложно иначе - колебания мембраны слишком сильны и затрагивают слишком много нервов. Слегка расширенный ударный принцип позволяет воспринимать частоты до примерно 4 кГц, засчет того, что несколько (до десяти) нервов ударяют в разных фазах, складывая свои импульсы. Это хорошо тем, что мозг воспринимает информацию более полно - с одной стороны, мы всё-таки имеем легкое частотное разделение, а с другой - можем еще анализировать сами колебания, их форму и особенности, а не просто частотный спектр. Этот принцип действует на самой важной для нас части - спектре человеческого голоса. Да и вообще, до 4 кГц находится вся наиболее важная для нас информация.
Ну и второй принцип - просто местоположение возбуждаемого нерва, применяется для восприятия звуков более 4 кГц. Тут уже кроме факта нас вообще ничего не волнует - ни фаза, ни скважность... Голый спектр.
Таким образом, в области высоких частот мы имеем спектральный слух не очень высокого разрешения, а для частот близких к человеческому голосу - более полный, основанный не только на разделении спектра, а еще и на дополнительном анализе информации самим мозгом, давая более полную стерео картину.
Основное восприятие звука происходит в диапазоне от 1 до 4 кГц, корректная передача этого частотного отрезка - первое условие естественности звучания.

О чувствительности
(по мощности и частотной)
Теперь о децибелах. Я не буду с нуля объяснять, что это такое, вкратце - относительная логарифмическая мера громкости (мощности) звука, наиболее хорошо отражающая человеческое восприятие громкости, и в то же время достаточно просто вычисляемая.
В акустике принято измерять громкость в дБ SPL (Sound Pressure Level – уровень звукового давления). Ноль этой шкалы находится примерно на минимальном звуке, который слышит человек. Отсчет ведется, естественно, в положительную сторону. Человек может осмысленно слышать звуки громкостью примерно до 120 дБ SPL. При 140 дБ ощущается сильная боль, при 150 дБ наступает повреждение слуха. Нормальный разговор - примерно 60 - 70 дБ SPL. Далее, при упоминании дБ подразумевается дБ от нуля по SPL.
Чувствительность уха к разным частотам очень сильно отличается. Максимальна чувствительность в районе 1 - 4 кГц, основные тона человеческого голоса. Сигнал 3 кГц - это и есть тот звук, который слышен при 0 дБ. Чувствительность сильно падает в обе стороны - например, для звука в 100 Гц нам нужно уже целых 40 дБ (в 100 раз большая амплитуда колебаний), для 10 кГц - 20 дБ. Обычно мы можем сказать, что два звука отличаются по громкости, при разнице, примерно, в 1 дБ. Несмотря на это, 1 дБ - скорее много, чем мало. Просто у нас очень сильно компрессированное, (выровненное) восприятие громкости. Зато весь диапазон - 120 дБ - воистину огромен, по амплитуде это миллионы раз!
Кстати, увеличение амплитуды в два раза соответствует увеличению громкости на 6 дБ. Внимание! не путайте: 12 дБ - в 4 раза, но разница 18 дБ - уже 8 раз! (а не 6, как могло подуматься.) дБ - логарифмическая мера.
Аналогична по свойствам и спектральная чувствительность. Мы можем сказать, что два звука (простых тона) отличаются по частоте, если разница между ними составляет около 0.3% в районе 3 кГц, а в районе 100 Гц требуется различие уже на 4%! Для справки - частоты нот (если брать вместе с полутонами, то есть две соседние клавиши фортепьяно, включая черные) отличаются на, примерно, 6%.
В общем, в районе 1 - 4 кГц чувствительность уха по всем параметрам максимальна, и составляет не так уж и много, если брать не логарифмированные значения, с которыми приходится работать цифровой технике.
Примите на заметку - многое из того, что происходит при цифровой обработке звука, может выглядеть ужасно в цифрах, и при этом звучать неотличимо от оригинала.
При цифровом представлении звука, понятие дБ считается от нуля и вниз, в область отрицательных значений. Ноль - максимальный уровень, представимый цифровой схемой. Если, при цифровой записи, уровень входного сигнала выбран не правильно – происходит превышение максимально разрешенного уровня сигнала, все сигналы, превышающие 0 дБ, обрезаются до 0 дБ – образуются клипы - вместо синусоиды на сигналограмме возникают прямоугольники (на слух воспринимаемые как щелчки (если превышение незначительно). Для того чтобы клипов не возникало, необходимо записывать звук с небольшим запасом по уровню -3 дБ.

О фазовой чувствительности
Если говорить об органах слуха в целом - природа создала их такими, какими создала, руководствуясь прежде всего соображениями целесообразности. Фаза частот нам не важна абсолютно, так как совершенно не несет полезной информации. Фазовое соотношение отдельных частот кардинально меняется от перемещений головы, окружающей обстановки, эха, резонансов.... Эта информация никак не используется мозгом, и поэтому мы не восприимчивы к фазам частот. Надо, однако, отличать изменения фазы в малых пределах (до нескольких сот градусов) от серьезных фазовых искажений, которые могут изменить временные параметры сигналов, когда речь уже идет не об изменениях фаз, а скорее о частотных задержках - когда фазы отдельных компонент настолько варьируются, что сигнал распадается во времени, изменяет свою длительность. Например, если мы слышим только отраженный звук, эхо с другого конца в огромном зале - в некотором роде это лишь вариация фаз сигналов, но настолько сильная, что вполне воспринимается по косвенным (временным) признакам. И вообще глупо называть это изменениями фаз - грамотнее говорить о задержках.
В общем, к незначительным вариациям фаз (однако, как посмотреть), до противофазы наше ухо абсолютно не чувствительно. Но всё это касается лишь одинаковых фазовых изменений в обоих каналах! Несимметричные фазовые сдвиги очень важны, об этом - ниже.

Об объемном восприятии
Человек может воспринимать пространственное положение источника звука.
Есть два принципа стерео восприятия, которые соответствуют двум принципам передачи звуковой информации из уха в мозг (об этом
см. выше).
Первый принцип - для частот ниже 1 кГц, их слабо волнуют препятствия в виде человеческой головы - они просто огибают её. Эти частоты воспринимаются ударным способом, передавая в мозг информацию об отдельных звуковых импульсах. Временное разрешение передачи нервных импульсов позволяет использовать эту информацию для определения направления звука - если звук в одно ухо приходит раньше другого (разница порядка десятков микросекунд), мы можем засечь его
расположение в пространстве - ведь запаздывание происходит из-за того, что звуку пришлось пройти еще дополнительно расстояние до второго уха, затратив на это какое-то время. Этот фазовый сдвиг звука одного уха относительно другого и воспринимается как информация, позиционирующая звуки.
И второй принцип - используется для всех частот, но в основном - для тех, что выше 2 кГц, которые отлично затеняются головой и ушной раковиной - просто определение разницы в громкости между двумя ушами.
Еще один важный момент, который позволяет нам гораздо точнее определять местоположение звука - возможность повернуть голову и «посмотреть» на изменение параметров звучания. Достаточно буквально нескольких градусов свободы, и мы можем определить звук (источник звука) почти точно. Принято считать, что направление с легкостью определяется с точностью до одного градуса. Этот прием пространственного восприятия - то, что почти не дает сделать реалистичный объемный звук в играх - по крайней мере, до тех пор, пока наша голова не будет облеплена поворотными датчиками.. Ведь звук в играх, даже рассчитанный на современные 3д карты, не зависит от поворота нашей реальной головы, поэтому полная картина почти никогда не складывается, и, сложиться, к сожалению, не может.
Таким образом, для стерео восприятия во всех частотах важна громкость правого и левого канала, а в частотах, где это возможно, до 1 - 2 кГц, дополнительно оцениваются и относительные фазовые сдвиги. Дополнительная информация - подсознательный поворот головы и мгновенная оценка результатов.
Фазовая информация в районе 1 - 4 кГц имеет приоритет над разницей в громкости (амплитуде), хотя определенная разница уровней перекрывает фазовую разницу, и наоборот. Не совсем соответствующие или прямо противоречивые данные (например - правый канал громче левого, однако запаздывает) дополняют наше восприятие окружения - ведь эти несоответствия рождаются из окружающих нас отражающих/поглощающих поверхностей. Таким образом, в очень ограниченном объеме воспринимается характер помещения, в котором находится человек. Этому также помогают общие для обоих ушей фазовые вариации огромного уровня - задержки, эхо (реверберация).

О нотах и октавах
Гармоники
Слово «гармоника» здесь означает гармоническое колебание, или проще - синусоиду, простой тон. В аудио - технике, однако, применяют понятие - пронумерованные гармоники. Дело в том, что множество физических, акустических процессов дают дополнение какой-то определенной частоты частотами, ей кратными. Простой (основной) тон 100 Гц сопровождают гармоники 200, 300, 400 и так далее Гц. Звук скрипки, например - это почти одни сплошные гармоники, основной тон имеет лишь немного большую мощность, чем его гармонические дополнения - обертоны. Вообще говоря, характер звучания музыкального инструмента (тембр) зависит от наличия и мощностей его гармоник, тогда как основной тон определяет ноту.
Вспоминаем дальше. Октава в музыке - интервал изменения частоты основного тона в два раза. Нота ля суб-контр октавы, к примеру, имеет частоту примерно - 27.5 Гц, контр- 55 Гц. Состав гармоник этих двух разных звуков имеет много общего - в том числе это 110 Гц (ля большой октавы), 220 Гц (малой), 440 Гц (первой) - и так далее. В этом основная причина того, что одинаковые ноты разных октав звучат в унисон - складывается влияние одинаковых высших гармоник.
Дело в том, что гармоники нам обеспечены всегда - даже если музыкальный инструмент воспроизводит только один основной тон, высшие гармоники (обертоны) появятся уже в ухе, в процессе спектрального восприятия звука. Нота самой нижней октавы почти всегда включает в себя в качестве гармоник те же ноты всех вышестоящих октав.
Наше звуковосприятие почему-то устроено так, что нам приятны гармоники, и неприятны частоты, которые выбиваются из этой схемы - два звука, 1 кГц и 4 кГц, вместе будут звучать приятно - ведь это суть одна нота через две октавы, пусть и не калиброванного по стандартной шкале инструмента. Как уже упоминалось - это то, что часто встречается в природе как следствие естественных физических процессов. Но, если взять два тона 1 кГц и 3.1 кГц - будет звучать раздражающе!
Октава - понятие, полезное не только для музыкантов. Октава в акустике - это изменение частоты звука в два раза. Мы уверенно слышим примерно полных 10 октав, это на две октавы выше, чем последняя октава фортепьяно. Странное дело, но в каждой октаве содержится примерно одинаковое для нас количество информации, хотя последняя октава - это весь район с 10 до 20 кГц. В старости мы практически перестаем слышать эту последнюю октаву, и это дает потерю слуховой информации не в два раза, а всего на 10% - что не так уж и страшно. Для справки - самая высокая нота фортепьяно - около 4,186 кГц. Тем не менее, спектр звучания этого
инструмента далеко выходит за 4,186 кГц за счет гармоник, реально покрывая весь наш звуковой диапазон. Так почти с любым музыкальным инструментом - основные тона почти никогда не выходят за 5 кГц, можно быть совершенно глухим к более высоким тонам, и, тем не менее, слушать музыку...
Даже если бы и были инструменты с более высокими тонами - слышимый гармонический состав их звучания был бы очень бедным. Сами смотрите - у инструмента в 6 кГц основного тона есть только одна слышимая гармоника - 12 кГц. Этого просто мало для наполненного, приятного звучания, какой тембр мы бы ни хотели получить в результате.
Важный параметр всех звуковых схем - гармонические искажения. Почти все физические процессы приводят к их появлению, и в звукопередаче их стараются сделать минимальными, чтобы не изменять тональную окраску звука, и просто не засорять звук лишней, отягощающей информацией. Гармоники, однако, могут давать звуку и приятную окраску - например, ламповый звук - это наличие большого (сравнительно с транзисторной техникой) числа гармоник, дающих звуку приятный, теплый характер, практически не имеющий аналогов в природе.

Принципы цифрового звука
Прежде всего, сам принцип представления звука в цифровой форме предполагает уничтожение какой-то части информации в нем. Исходная, непрерывная кривая, описывающая амплитуду звуковой волны, подвергается дискретизации - разбиению на отдельные интервалы (отсчеты), внутри которых амплитуда считается постоянной; таким образом фиксируются временные характеристики волны. Затем эти мгновенные значения амплитуды еще раз разбиваются на конечное число значений - теперь уже по самой величине амплитуды - и выбирается наиболее близкое из этих дискретных значений; так фиксируются амплитудные характеристики. Если говорить по отношению к графику (осциллограмме) звуковой волны, то можно сказать, что на него накладывается некая сетка - крупная или мелкая, которая определяет точность преобразования волны в цифровую форму.
Мелкость временной сетки - частота дискретизации - определяет, прежде всего, частотный диапазон преобразуемого звука. В идеальных условиях для передачи сигнала с верхней частотой F достаточно частоты дискретизации 2F (по теореме Котельникова), в реальных же, приходится выбирать некоторый запас. Точность же представления самих значений амплитуды - разрядность отсчетов - определяет в первую очередь уровень шумов и искажений, вносимых при преобразовании. Естественно - снова для идеального
случая, поскольку шумы и искажения вносятся и другими участками схемы.
В начале 80-х, когда разрабатывалась система "компакт-диск", ориентированная для бытового применения, по результатам экспертных оценок была выбрана частота дискретизации 44.1 кГц и разрядность отсчета 16 бит (65536 фиксированных уровней амплитуды). Этих параметров достаточно для точной передачи сигналов с частотой до 22 кГц, в которые вносится дополнительный шум на уровне примерно -96 дБ.
Поток чисел (серий двоичных цифр), описывающий звуковой сигнал, называют импульсно-кодовой модуляцией или ИКМ (Pulse Code Modulation, PCM), так как каждый импульс дискретизованного по времени сигнала представляется собственным цифровым кодом.
Чаще всего применяют линейное квантование, когда числовое значение отсчета пропорционально амплитуде сигнала. Из-за логарифмической природы слуха более целесообразным было бы логарифмическое квантование, когда числовое значение пропорционально величине сигнала в децибелах, однако это сопряжено с трудностями чисто технического характера.
Временная дискретизация и амплитудное квантование сигнала неизбежно вносят в сигнал шумовые искажения. В большинстве современных цифровых звуковых систем используются стандартные частоты дискретизации 44.1 и 48 кГц, однако частотный диапазон сигнала обычно ограничивается возле 20 кГц для оставления запаса по отношению к теоретическому пределу. Также наиболее распространено 16-разрядное квантование по уровню, что дает предельное соотношение сигнал/шум около 98 дБ. В студийной аппаратуре используются более высокие разрешения - 18-, 20, 24 и 32-разрядное квантование при частотах дискретизации 56, 96 и 192 кГц. Это делается для того, чтобы сохранить высшие гармоники звукового сигнала, которые непосредственно не воспринимаются
слухом, но влияют на формирование общей звуковой картины.
Для оцифровки более узкополосных и менее качественных сигналов частота и разрядность дискретизации могут снижаться (например, в телефонных линиях применяется 7или 8-разрядная оцифровка с частотами 8..12 кГц).
Сам цифровой звук и относящиеся к нему вещи принято обозначать общим термином Digital Audio; аналоговая и цифровая части звуковой системы обозначаются терминами Analog Domain и Digital Domain.

Что такое АЦП и ЦАП?
Аналогово-цифровой и цифро-аналоговый преобразователи. Первый преобразует аналоговый сигнал в цифровое значение амплитуды, второй выполняет обратное преобразование.
В англоязычной литературе применяются термины ADC и DAC, а совмещенный преобразователь называют codec (coder-decoder).
Принцип работы АЦП состоит в измерении уровня входного сигнала и выдаче результата в цифровой форме. В результате работы АЦП непрерывный аналоговый сигнал превращается в импульсный, с одновременным измерением амплитуды каждого импульса. ЦАП получает на входе цифровое значение амплитуды и выдает на выходе импульсы напряжения или тока нужной величины, которые расположенный за ним интегратор (аналоговый фильтр) превращает в непрерывный аналоговый сигнал.
Для правильной работы АЦП входной сигнал не должен изменяться в течение времени преобразования, для чего на его входе обычно помещается схема выборки-хранения, фиксирующая мгновенный уровень сигнала и сохраняющая его в течение всего времени преобразования. На выходе ЦАП также может устанавливаться подобная схема, подавляющая влияние переходных процессов внутри ЦАП на параметры выходного сигнала.
При временной дискретизации спектр полученного импульсного сигнала в своей нижней части 0..Fa повторяет спектр исходного сигнала, а выше содержит ряд отражений (aliases, зеркальных спектров), которые расположены вокруг частоты дискретизации Fd и ее гармоник. При этом первое отражение спектра от частоты Fd в случае Fd = 2Fa располагается непосредственно за полосой исходного сигнала, и требует для его подавления аналогового фильтра (anti-alias filter) с высокой крутизной среза. В АЦП этот фильтр устанавливается на входе, чтобы исключить перекрытие спектров и их интерференцию, а в ЦАП - на выходе, чтобы подавить в выходном сигнале надтональные помехи, внесенные временной дискретизацией.

Что такое передискретизация
(oversampling)?
Это дискретизация сигнала с частотой, превышающей основную частоту дискретизации. Передискретизация может быть аналоговой, когда с повышенной частотой делаются выборки исходного сигнала, или цифровой, когда между уже существующими цифровыми отсчетами вставляются дополнительные, рассчитанные путем интерполяции.
Другой способ получения значений промежуточных отсчетов состоит во вставке нулей, после чего вся последовательность подвергается цифровой фильтрации. В АЦП используется аналоговая передискретизация, в ЦАП - цифровая.
Передискретизация используется для упрощения конструкций АЦП и ЦАП. По условиям задачи на входе АЦП и выходе ЦАП должен быть установлен аналоговый фильтр с амплитудно-частотной характеристикой (АЧХ), линейной в рабочем диапазоне и круто спадающей за его пределами. Реализация такого аналогового фильтра весьма сложна; в то же время при повышении частоты дискретизации, вносимые ею отражения спектра пропорционально отодвигаются от основного сигнала, и аналоговый фильтр может иметь гораздо меньшую крутизну среза.
Другое преимущество передискретизации состоит в том, что ошибки амплитудного квантования (шум дробления), распределенные по всему спектру квантуемого сигнала, при повышении частоты дискретизации распределяются по более широкой полосе частот, так что на долю основного звукового сигнала приходится меньшее количество шума. Каждое удвоение частоты снижает уровень шума квантования на 3 дБ; поскольку один двоичный разряд эквивалентен 6 дБ шума, каждое учетверение частоты позволяет уменьшить разрядность преобразователя на единицу.
Передискретизация вместе с увеличением разрядности отсчета, интерполяцией отсчетов с повышенной точностью и выводом их на ЦАП надлежащей разрядности позволяет несколько улучшить качество восстановления звукового сигнала. По этой причине даже в 16-разрядных системах нередко применяются 18, 20 и 24-разрядные ЦАП с передискретизацией.
АЦП и ЦАП с передискретизацией за счет значительного уменьшения времени преобразования могут обходиться без схемы выборки-хранения.
Цифровое представление звука ценно, прежде всего, возможностью бесконечного хранения и тиражирования без потери качества, однако преобразование из аналоговой формы в цифровую и обратно все же неизбежно приводит к частичной его потере. Наиболее неприятные на слух искажения, вносимые на этапе оцифровки - гранулярный шум, возникающий при квантовании сигнала по уровню из-за округления амплитуды до ближайшего дискретного значения. Гранулярный шум сильно связан с сигналом (зависит от него), и представляет собой гармоники сигнала, искажения от которых наиболее заметны в верхней части спектра. Проявления гранулярного
шума и его связь с сигналом легко заметить, прослушав синусоидальный сигнал с частотой около 0.1..5 Гц - гранулярный шум в этом случае проявляется в виде изменяющегося по высоте паразитного тона, частота которого зависит от частоты, формы и максимальной амплитуды полезного сигнала.
Мощность гранулярного шума обратно пропорциональна количеству ступеней квантования, однако из-за логарифмической характеристики слуха при линейном квантовании (постоянная величина ступени) на тихие звуки приходится меньше ступеней квантования, чем на громкие, и в результате основная плотность нелинейных искажений приходится на область тихих звуков. Это приводит к ограничению динамического диапазона, который в идеале (без учета гармонических искажений) был бы равен
соотношению сигнал/шум, однако, необходимость ограничения этих искажений снижает динамический диапазон для 16-разрядного кодирования до 50-60 дБ.
При восстановлении звука из цифровой формы в аналоговую возникает проблема сглаживания ступенчатой формы сигнала и подавления гармоник, вносимых частотой дискретизации. Из-за неидеальности АЧХ фильтров может происходить либо недостаточное подавление этих помех, либо избыточное ослабление полезных высокочастотных составляющих. Плохо подавленные гармоники частоты дискретизации искажают форму аналогового сигнала (особенно в области высоких частот), что создает впечатление "шероховатого", "грязного" звука.

Что такое Dithering и Noise Shaping?
Методы обработки цифрового звукового сигнала, направленные на улучшение субъективного качества звучания ценой очевидного ухудшения его объективных характеристик (прежде всего - коэффициента нелинейных искажений и соотношения сигнал/шум).
Dithering (сглаживание) заключается в добавлении к сигналу небольшого количества шума (псевдослучайного цифрового сигнала) разного спектра (белый, розовый и т.п.). При этом заметно ослабляется корреляция ошибок квантования с полезным сигналом ("рассеиваются" ошибки округления) и, несмотря на некоторое увеличение шума, субъективное качество звучания заметно повышается. Уровень добавляемого шума выбирается в зависимости от задачи и колеблется от половины младшего разряда отсчета до нескольких разрядов.
Noise Shaping (формовка шума) заключается в преобразовании сильно зашумленного полезного сигнала с целью вытеснения чисто шумовых компонент в надтональную область с выделением в нижней части спектра основной энергии полезного сигнала. По существу, Noise Shaping является одним из видов PWM (Pulse Width Modulation - широтно-импульсная модуляция, ШИМ) с дискретной шириной импульса. Сигнал, обработанный этим методом, требует обязательной фильтрации с подавлением высоких частот - это выполняется либо цифровым, либо аналоговым способом.
Основное применение Noise Shaping находит в области представления цифровых сигналов отсчетами меньшей разрядности с повышенной частотой следования. В delta-sigma ЦАП для повышения частоты следования отсчетов увеличивается в десятки раз частота дискретизации, на которой из исходных многоразрядных отсчетов формируются серии отсчетов разрядностью 1..3. Низкочастотная часть спектра потока этих отсчетов с высокой точностью повторяет спектр исходного сигнала, а высокочастотная
содержит в основном чистый шум.

В случае преобразования цифрового сигнала к отсчетам более низкой разрядности на той же частоте дискретизации Noise Shaping выполняется вместе с операцией Dithering'а. Поскольку в этом случае повышение частоты дискретизации невозможно, вместо этого спектр добавляемого шума формируется таким образом, чтобы его низко и среднечастотная часть максимально точно повторяла слабую часть сигнала, заключенную в отсекаемых младших разрядах отсчетов. Благодаря этому основная энергия шума вытесняется в верхнюю часть рабочего диапазона частот, а в наиболее слышимой области остаются вполне разборчивые следы слабого сигнала,
который иначе оказался бы полностью уничтоженным. Несмотря на то, что объективные искажения сохраненного таким образом слабого сигнала очень велики, его субъективное восприятие остается вполне приемлемым, позволяя воспринимать на слух компоненты, уровень которых меньше младшего разряда отсчета.
По существу, Dithering и Noise Shaping являются частными случаями одной технологии - с той разницей, что в первом случае используется белый шум с равномерным спектром, а во втором - шум со спектром, специально сформированным под конкретный сигнал. Данная технология приводит к "нестандартному" использованию цифрового формата, основанному на особенностях человеческого слуха.

Теги: сигнал звук частоты