Аналоговый блюз

Александр Радзишевский (http://websound.ru)
Октябрь 2003
(специально для журнала "Компьютерра")

Все права в отношении данного документа принадлежат авторам. Воспроизведение данного текста или его части допускается только с письменного разрешения обоих авторов.

Н аступившие времена называют «цифровой эрой». Можно спорить о такой формулировке, однако цифровые технологии действительно завоевывают все новые и новые области нашей жизни, и можно с уверенностью говорить о том, что этот процесс необратим. Современная тенденция развития цифровых технологий в целом выражается в повсеместной компьютеризации. Тенденция эта вполне закономерна и объяснима - цифровая техника, в отличие от прежней, аналоговой, является почти бесконечно гибким и легко настраиваемым инструментом. Темпы прогресса цифровых технологий можно хорошо увидеть и ощутить на примере области звука, где переход на «цифровые рельсы» произошел, пожалуй, раньше других. Доказательство этого факта можно найти сегодня почти в каждом доме, – это выпущенный еще в 1980 г. привычный для всех аудио компакт-диск (CD - DA ).

В этой статье мы постараемся кратко разобрать основные понятия области цифрового звука, а также обзорно пробежаться по существующим типам носителей аудио данных.

Для начала немного физики. В аналоговой аппаратуре звук(1) представляют колебаниями тока в электрической цепи. Такие колебания называют аналоговым сигналом. Цифровая аппаратура оперирует наборами чисел и не знает никаких непрерывных электрических сигналов. Поэтому и звук (аналоговый сигнал) представляется в цифровой аппаратуре набором чисел. Процесс преобразования аналогового сигнала в цифровой называется аналогово-цифровым преобразованием(2). Аппаратное устройство, занимающееся таким преобразованием, логично называется аналогово-цифровым преобразователем или сокращенно АЦП .

Принцип работы АЦП следующий. На вход устройства подается непрерывный аналоговый сигнал, а на выходе через определенные промежутки времени снимаются численные значения его уровня (амплитуды(3) ). Во время прохождения аналогового сигнала через АЦП происходят два процесса – дискретизация во времени и квантование по уровню (квантование значений амплитуды ) . Дискретизация сигнала во времени заключается в измерении значений амплитуды аналогового сигнала через определенные промежутки времени, называемые шагом дискретизации . Чем выбранный шаг меньше, тем, соответственно, чаще замеряются значения амплитуды. Количество осуществляемых замеров амплитуды в одну секунду называют частотой дискретизации (или частотой выборки ) сигнала (рис. 1).

рис. 1

Квантование измеренных значений амплитуды сигнала представляет собой процесс замены этих значений приближенными с определенной точностью (рис. 2). Необходимость производимых округлений вызвана невозможностью записывать с бесконечной точностью реальные значения амплитуды сигнала (это потребовало бы бесконечно большой объем памяти). Точность осуществляемого округления зависит от выбранного количества уровней квантования : чем больше уровней квантования, тем на меньшую величину приходится округлять измеренные значения амплитуды, и, таким образом, тем меньше получаемая погрешность.

рис. 2

Например, в случае наличия всего двух уровней квантования – «1» и «0» (то есть случай примитивного однобитного АЦП) измеренные значения амплитуды сигнала округляются до «есть» и «нет». В случае же, например, 16-битного АЦП количество уровней квантования равно 2^16 = 65536 уровней.

Итак, в целом, оцифровка сигнала представляет собой процесс регистрации амплитуды сигнала через определенные промежутки времени и вывода зарегистрированных значений в виде округленных числовых значений . Полученные числовые значения амплитуды сигнала называют отсчетами . Вполне о чевидно , что чем чаще производятся замеры амплитуды (то есть чем выше частота дискретизации) и чем на меньшие величины округляются полученные значения (то есть чем выше разрядность квантования ), тем более точно получаемая цифровая информация описывает оригинальной аналоговой сигнал. Способ хранения оцифрованного сигнала в виде последовательности чисел, описывающих абсолютные значения амплитуды сигнала, обозначается ИКМ - импульсно кодовая модуляция (в английском обозначении PCM - pulse code modulation ). Надо особо подчеркнуть, что объем оцифрованных данных напрямую зависит от выбранных параметров оцифровки: чем выше частота дискретизации и разрядность квантования, тем больше памяти требуется для хранения оцифрованных данных.

Стандартный аудио компакт диск ( CD - DA ) несет информацию в формате ИКМ с параметрами 44100 Гц / 16 бит / стерео (частота дискретизации / разрядность квантования / количество каналов). Несложно подсчитать, что диск CD - DA стандартным объемом 650 Мб хранит около часа музыки: 44100 (Гц) * 16 (бит) * 2 (каналов) * 60 (секунд) * 60 (минут) / 8 (бит в байте) / 1024 (байт в килобайте) / 1024 (килобайт в мегабайте) = ~605 мегабайт.

Чтобы воспроизвести (проиграть) цифровой сигнал, необходимо теперь преобразовать его обратно в аналоговую форму. Цифро-аналоговым преобразованием занимается специальное устройство – ЦАП ( цифро-аналоговый преобразователь ). Процесс такого преобразования представляет собой обратный процесс дискретизации: по имеющейся цифровой информации путем интерполирования (восстановления значений сигнала между отсчетами на основе известных значений самих отсчетов) «строится» аналоговый сигнал. Именно на этом этапе (то есть на этапе восстановления) и выясняется важность параметров оцифровки сигнала. Если в ходе аналогово-цифрового преобразования частота дискретизации и разрядность квантования были выбраны низкими, то восстанавливаемый ЦАП'ом сигнал вследствие вынужденной грубой интерполяции может значительно отличаться от оригинального аналогового сигнала. Отсюда напрашивается, казалось бы, простой вывод, а именно: для получения в конечном итоге качественного сигнала на выходе ЦАП нужно брать как можно более высокую разрядность квантования АЦП при минимальном возможном шаге дискретизации. На практике, к сожалению, это невыполнимо в виду ограниченности объемов памяти. С другой стороны, стремясь получить данные как можно меньшего объема и занизив с этой целью параметры оцифровки, можно тем самым легко навредить качеству сигнала(4). В частности, выбор низкой разрядности квантования ведет к зашумлению сигнала (так называемый «шум дробления»), в то время как выбор низкого значения частоты дискретизации ограничивает верхний порог сохраняемых частот.

В соответствии с теоремой Котельникова (Найквиста) частота дискретизации устанавливает верхнюю границу частот, информация о которых сохраняется в оцифрованном сигнале. А именно: максимальная частота спектральных составляющих сигнала равна половине частоты дискретизации. На практике это означает, что аудио компакт-диск, несущий данные, дискретизованные с частотой 44.1 кГц, несет информацию об оригинальной записи в полосе частот от 0 Гц до 22050 Гц. Человеческий слуховой аппарат, кстати, способен улавливать частоты в диапазоне (приблизительно) 0 – 20 кГц.

Еще одним нежелательным эффектом оцифровки является так называемый «джиттер» (от англ. « jitter » - «дрожание»). Джиттер – это шум, возникающий вследствие нестабильности АЦП. Нестабильность этого электронного устройства выражается в том, что оцифровка проходит не с точно установленным шагом дискретизации, а с небольшими отклонениями от его номинального значения. Такое «дрожание АЦП» вносит в спектр сигнала паразитные высшие гармоники.

Для уменьшения объемов цифровых данных было предложено много разных способов их записи. Самый простой способ уплотнения заключается в записи не абсолютных значений амплитуды сигнала, а относительных изменений величины амплитуды (на запись которых можно тратить меньше бит, чем в случае ИКМ). Такой формат хранения данных носит название « адаптивная относительная импульсно-кодовая модуляция» или АОИКМ ( ADPCM - Adaptive Delta PCM ). Однако, несмотря на свою простоту и достаточно широкую распространенность, этот способ оказывается не слишком удачным, поскольку ограничение числа бит, используемых для записи величины изменения амплитуды, как правило, приводит к искажению сигнала.

На сегодняшний день существуют другие способы сжатия цифровых аудио данных, которые в целом можно подразделить на два принципиально различных типа: способы сжатия данных без потерь ( lossless compression ) и способы компрессии данных с потерями ( lossy compression ).

Цель сжатия без потерь заключается в достижении как можно более эффективного уплотнения цифровых данных с обязательным условием возможности последующего 100-процентного восстановления оригинальных данных. В целом, lossless -компрессор – это архиватор (как ZIP , RAR или другой), внутренний механизм сжатия которого адаптирован специально на сжатие аудио информации. Компрессоры этого типа на большинстве типов аудио данных обеспечивают в лучшем случае двойное сжатие, что является чаще всего наилучшим результатом сжатия даже теоретически.

Коэффициента уплотнения данных, обеспечиваемого lossless -компрессией, часто оказывается недостаточно. В таком случае прибегают к применению более эффективной компрессии, - компрессии данных с потерями. Основной идеей такой компрессии является мысль о том, что формат ИКМ избыточен и ИКМ данные могут быть уплотнены (сжаты, закодированы).

Человеческий слух не идеален: он инертен, его реакция и чувствительность конечны. Существует множество тому доказательств. Например: при звучании тихого тона на фоне близкого к нему по частоте громкого тона, слух воспримет только более громкий из них; слух вообще не способен различить два тона, отличающихся друг от друга меньше чем на 3 Гц; слух абсолютно не способен различить резкое пропадание звучания высоких частот, если этот провал произошел меньше чем на 2 мс. Эти и многие другие особенности слуха называются психоакустическими..

Цель кодирования с потерями заключается в достижении как можно более эффективного сжатия при сохранении схожести звучания закодированного сигнала с несжатым цифровым. Lossy -сжатие в общем проходит по схеме: «упрощение» цифрового аудио сигнала (с учетом целого ряда психоакустических особенностей), а затем сжатие упрощенных данных каким-нибудь lossless -алгоритмом. Примеров lossy -алгоритмов и их реализаций существует много. Lossy -алгоритмы это: MPEG -1 Layer 1, 2, 3 ( Layer 3 – это всем известный « MP 3»), MPEG -2/4 AAC , Real Audio (файлы . RA ), Ogg Vorbis (файлы . OGG ), MusePack (два последних основаны на MPEG -1 Layer 2), Windows Media Audio (файлы . WMA ) и многие-многие другие. Здесь нужно отметить, что какая бы реклама не пропагандировалась разработчиками таких компрессоров, lossy -кодирование – это всегда кодирование с потерями качества по определению, и звучание закодированных таким образом данных уже не является звучанием оцифрованного оригинального сигнала, а лишь на него очень похоже. При этом степень «схожести» звучания зависит от «агрессивности» упрощения сигнала при сжатии: чем больше упрощается сигнал в процессе сжатия, тем более высокий коэффициент компрессии может быть достигнут, но тем хуже звучат закодированные таким образом данные.

Теперь поговорим о стандартах и практической стороне вопроса. Более двадцати лет аудио компакт-диск ( CD - DA ) считался эталоном качества. Однако если десять лет назад мало у кого возникали нарекания относительно качества звучания CD - DA , то в последние годы в связи с развитием звуковых возможностей обычных домашних компьютеров, а также бытовых акустических систем, требования потребителей к качеству носителей аудио данных резко возросли. Понимая и предвидя эту ситуацию, разработчики аудио стандартов предложили замену CD - DA .

Стандарт DVD, как видео стандарт, был разработан и предложен еще в середине 90-х годов, но настоящей популярности он так пока и не приобрел. С пере-/записываемыми дисками DVD эпопея тянулась особенно долго, - только сейчас DVD начал приживаться в качестве более-менее привычного типа носителей информации. В середине 90-х, параллельно разработке DVD для видео, разрабатывался и стандарт DVD Audio (DVD-A). Процесс становления DVD - A был долгим, первая версия стандарта была утверждена лишь в марте 1999.

DVD-A – это стандарт хранения аудио данных на дисках формата DVD. DVD-A предназначен для хранения аудио данных в шести каналах в форматах ИКМ и MLP (Meridian Lossless Packing). Данные в формате ИКМ хранятся с параметрами 16-24 бит (разрядность квантования) и 96 - 192 кГц (частота дискретизации). DVD-A диск, как любой односторонний однослойный диск DVD , имеет объем 4.7 Гб. Это означает, что DVD-A может вместить, например, до 6 часов аудио в формате CD-DA (44.1 кГц / 16 бит / стерео). Скорость чтения данных с дисков DVD-A составляет 9.6 Мбит/сек. В случае хранения данных в формате 24 бит / 96 кГц / 6 каналов поток аудио должен составлять 13.8 Мбит/сек, что является недостижимой скоростью чтения для DVD-A. Чтобы обойти это ограничение в стандарте DVD-A предусмотрено использование специальной техники lossless -сжатия аудио - MLP(5) (Meridian Lossless Packing). MLP обеспечивает в среднем приблизительно двукратное сжатие аудио данных. Таким образом, данные в формате 24 бит / 96 кГц / 6 каналов, требующие в несжатом виде скорость потока 13.8 Мбит/сек, будучи сжатыми посредством MLP, могут вполне «уместиться» в дозволенные 9.6 Мбит/сек. Надо заметить, что не всякий проигрыватель DVD «понимает» диски DVD-A - проигрыватели, знакомые с DVD-A, имеют специальный логотип «DVD-Audio». Тем не менее, для обеспечения совместимости, многие диски DVD-A специально оснащены треками в формате Dolby Digital и DTS, которые легко распознаются проигрывателями DVD-Video.

Продолжительность процесса становления стандарта DVD - A связана, как, впрочем, и всегда, с «войной стандартов». На рынке присутствуют множество китов бизнеса, каждый из которых дабы урвать кусочек пожирней, старается утвердить на рынке свое новшество первым. В то время как одни работали над DVD - A , Sony и Phillips (кстати, они же и разработали CD - DA ) работали над так называемым Super Audio CD ( SACD )(6). SACD является, в некотором смысле, братом DVD - A . Почти единственным отличием SACD от DVD - A является формат хранения данных – не ИКМ, а однобитная сигма-дельта модуляция(7) с частотой 2.8224 МГц. Не смотря на теоретически более высокое качество кодирования звука, чем в случае ИКМ, практическую выгоду от использования сигма-дельта модуляции на слух различить, вероятнее всего, невозможно. Правда, еще одной действительно полезной особенностью SACD является возможность выпуска гибридных носителей ( Hybrid SACD ) – дисков, способных работать как в старых CD -приводах, так и в новых SACD (такая возможность достигается благодаря наличию на дисках SACD двух слоев с данными). В самое ближайшее время планируется анонс новой версии стандарта SACD – SACD II . В ней планируется ввести некоторые усовершенствования (к уже существующим возможностям) по защите данных, а также расширение возможностей хранения видео и фото информации.

Почему же до сих пор многие ценители звука предпочитают аналоговые записи на ленте или даже грампластинке цифровым данным и носителям? На этот вопрос ответить сложно и любой ответ на него не будет объективен. Мнение автора этой статьи с учетом сегодняшних тенденций в хранении аудио (это и оцифровка с высочайшими параметрами, и очень «умные» и развитые алгоритмы lossy -сжатия, и новейшие носители информации) сводится к одному – все это предрассудки. В свое время, некоторые аудиофилы жаловались на то, что, например, CD - DA несет информацию только о слышимой части звукового спектра, в то время как сверхвысокие частоты (выше 22 кГц) безвозвратно теряются. Для современных носителей DVD - A и SACD это утверждение уже не актуально. Другие ценители звука утверждали, что «цифра» несет «не живой» сигнал, и что временн а я и амплитудная дискретизация портят звучание. Опровергнуть это заявление также не сложно – даже магнитная лента (не говоря уже о виниловых дисках) тоже является дискретным носителем, поскольку количество магнитных доменов (носителей информации) в единице площади магнитного слоя является вполне конечной величиной.

Примечания:
(1) Звук (то есть, непосредственно то, что мы слышим) – это колебания частиц воздуха, воздействующие на нервные окончания человеческого уха.
(2) В принципе, такое преобразование справедливо для любого аналогового сигнала в не зависимости от его истинной природы.
(3) Под амплитудой сигнала здесь и в дальнейшем будем понимать величину сигнала в текущий момент времени.
(4) Под «качеством сигнала» здесь подразумевается степень схожести сигнала, восстановленного из цифровой формы и оригинального аналогового.
(5) http://www.meridian-audio.com/w_paper/2_1.PDF , http://www.dolby.com/trademark/meridian.pdf.
(6) стандарт был утвержден в 1999 году, тогда же, когда и DVD - A. http://www.sacd.philips.com/index.php.
(7) cм. FAQ Евгения Музыченко: http://faqs.org.ru/hardw/media/dgaudfaq.htm или http://websound.ru/articles/theory/dgaudfaq.htm.