Способы преобразования звука, звуковые эффекты

Автор: Александр Радзишевский (Alex Y. Radzishevsky)
Copyright (C) 1998-2000, Alex Y. Radzishevsky

Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части разрешается только с письменного разрешения автора.

1. Способы преобразования звука

Какие же существуют способы преобразования звука и зачем они нужны? К преобразованию звука прибегают в основном с целью изменения каких-то характеристик звука. Кроме того, на основе описанных ниже преобразований базируются механизмы создания различных звуковых эффектов (их мы рассмотрим ниже), а также способы очистки звука от нежелательных шумов, изменения тембра и т.п. Все эти преобразования сводятся, в конечном счете, к нижеследующим.

Амплитудные преобразования. Выполняются над амплитудой сигнала. Такую процедуру можно проделать двумя способами: либо умножая амплитуду сигнала на некоторое фиксированное число, в результате чего получится одинаковое изменение интенсивности сигнала на всей его протяженности, то есть усиление или ослабление, либо изменяя амплитуду сигнала по какому-то закону, то есть умножая амплитуду сигнала на модулирующую функцию. Последний процесс называется амплитудной модуляцией.

Спектральные (частотные) преобразования. Такие преобразования выполняются над частотными составляющими звука. Фактически сигнал представляется рядом Фурье, то есть раскладывается на простейшие синусоидальные колебания различных частот и амплитуд. Затем производится обработка необходимых частотных составляющих (например, фильтрация) и обратная свертка. В отличие от амплитудных преобразований, эта процедура значительно более сложная в исполнении, так как сам процесс разложения звука на простейшие синусоидальные колебания очень трудоемок.

Фазовые преобразования. Выполняются либо путем постоянного сдвига фазы сигнала, либо путем наложения некоторой фазомодулирующей функции. Такие преобразования, например, стерео сигнала, позволяют реализовать эффект вращения или "объёмности" звука.

Временные преобразования. Реализуются путем наложения на сигнал одной или нескольких его копий, сдвинутых во времени. Позволяют создать эффекты эха или хора. Кроме того, временные преобразования могут влиять на пространственные характеристики звука.

Формантные преобразования. Выполняются над формантами - усиленными участками спектра звука. Применительно к звуку, сформированному речевым аппаратом человека, изменяя параметры формант, фактически можно изменять восприятие тембра и высоты голоса.

Отдельно необходимо обсудить фильтрацию звука, так как она тоже является одним из способов преобразования звука. Зачем может понадобиться фильтрация? К фильтрации прибегают в случаях, когда необходимо ограничить или изменить спектр звукового сигнала в каком-то определенном частотном диапазоне. Путем фильтрации звука, можно избавиться, например, от нежелательных шумов или помех, подавить определенные частотные полосы. Существует и еще один немаловажный аспект применения фильтрации. Часто устройства, с помощью которых производится запись и преобразования звуковых сигналов, имеют нелинейную зависимость амплитуды от частоты сигнала. Это означает, что при записи одни частотные составляющие звука могут быть завышены, а другие занижены. Фильтрация позволяет нормализовать частотные составляющие в необходимом диапазоне.

Таким образом, фильтрацию сигналов можно в целом классифицировать следующим образом:

фильтрация, в результате которой происходит усиление или ослабление отдельных частотных составляющих спектра;

полное подавление частотных составляющих в определенной полосе частот.

Фильтры характеризуются с помощью амплитудно-частотной характеристики (АЧХ). Эта характеристика представляет собой график зависимости коэффициента передачи K(f) (амплитуды) от частоты f. То есть на таком графике можно увидеть, в какой полосе частот сигнал будет передаваться без изменений, и в какой полосе частот сигнал будет ослаблен или не пропущен совсем.

Существует четыре основных типа фильтров:

фильтры нижних частот ФНЧ. Типичная АЧХ таких фильтров выглядит след. образом:

фильтры верхних частот ФВЧ. Типичная АЧХ таких фильтров выглядит след. образом:

полосно-пропускающие фильтры. Типичная АЧХ таких фильтров выглядит след. образом:

полосно-запирающие фильтры. Типичная АЧХ таких фильтров выглядит след. образом:

Фильтрация реализуется с помощью различных устройств и алгоритмов. Одним из наиболее известных фильтрующих устройств является эквалайзер. Эквалайзер позволяет регулировать (усиливать или ослаблять) уровень частотных составляющих в определенной полосе частот, тем самым фактически регулируя тембр звука. Применительно к компьютерной технике, аппаратная реализация фильтрующих устройств в достаточной степени затруднена, так как процесс фильтрации предполагает разложение сигнала в ряд Фурье, что является математически трудоемкой операцией. Однако реализацию фильтров той или иной сложности можно найти в цифровых сигнальных процессорах (DSP - Digital Signal Processor), используемых в профессиональной и полупрофессиональной музыкальной аппаратуре (хотя в последнее время это утверждение стало частично относиться также и к бытовым звуковым устройствам). Фильтрация находит реализацию и в различном программном обеспечении, предназначенном для обработки звука. В таком случае процессы фильтрации чаще всего происходят не в реальном времени.

2. Звуковые эффекты

Давайте подробно остановимся на рассмотрении тех манипуляций со звуком, которые позволяют добиваться появления таких эффектов, как, например, эхо, реверберация и т.п. Выше мы говорили о различных способах преобразованиях звука (амплитудные, частотные и проч.). На основе этих преобразований реализуются звуковые эффекты. Принципиально, целью обработки звука является придание существующему звуку каких-то новых качеств или устранение нежелательных. Звуковые эффекты относятся к тем преобразованиям звука, которые придают звучанию новые формы или полностью изменяют звуковую информацию.

Аппаратную реализацию звуковые эффекты находят в цифровых сигнальных процессорах (DSP). Любой более или менее приличный MIDI-синтезатор имеет встроенный эффект-процессор той или иной сложности (эффект-процессор представляет собой один или несколько DSP). Сложные эффект-процессоры "умеют" накладывать на звуковой сигнал сразу несколько различных эффектов, причем, отдельно для каждого канала, позволяя регулировать параметры эффектов в режиме реального времени. Однако стоимость таких эффект-процессоров чрезвычайно высока (как и стоимость любого другого высокопроизводительного микропроцессора), поэтому профессиональные DSP устанавливаются только на качественной музыкальной аппаратуре. На более или менее дешевых звуковых платах часто устанавливается DSP с упрощенным набором возможностей: наложение одного или нескольких эффектов на все каналы одновременно.
Аппаратный эффект-процессор - это, безусловно, хорошо, но обработать звук на высоком уровне можно и программным способом. Существует множество различных звуковых редакторов, позволяющих делать со звуком значительно более сложные вещи, чем это позволяют делать даже самые сложные эффект-процессоры. Кроме того, эффект-процессоры часто эмулируются в виртуальных WT-синтезаторах, а также находят программную реализацию в специальных программах для обработки звука в режиме реального времени.

Итак, вернемся к описанию эффектов. Те или иные эффекты получают в основном четырьмя способами: с использованием задержки, изменением амплитуд, фильтрацией и изменением частотных составляющих.

Использование задержки

Delay. Собственно, эффект задержки (от англ. "delay" - задержка) применяется чаще в случаях, когда моно сигнал требуется преобразовать в нечто вроде псевдостерео. Если моно сигнал подать в оба канала стереофонической акустической системы, то путем некоторой задержки сигнала в одном из каналов можно добиться получения стерео эффекта. Если же в оба канала сигнал приходит одновременно, то слушателю будет казаться, что источник звука расположен посредине. Меняя задержку сигнала в одном из каналов в пределах 8 мс можно получить эффект перемещения источника звука по стерео панораме.

Echo. На использовании метода задержки построено создание эффекта "эхо" (echo). Фактически для получения эха необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук основного сигнала, необходимо время задержки установить равным примерно 50 мс. Кроме того, на основной сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим, необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а и приглушенные по амплитуде. Схематично механизм создания эха можно представить, как показано на рисунке:

Reverberation. С использованием задержки можно добиться появления еще одного интересного эффекта - реверберации (от англ. "reverberation" - повторение, отражение). Эффект реверберации заключается в придании звучанию объемности, характерной для большого зала, где каждый звук порождает соответствующий, медленно угасающий отзвук. Таким образом, с помощью реверберации можно "оживить", например, фонограмму, сделанную с заглушенном помещении. От эффекта "эхо" реверберация отличается тем, что на входной сигнал накладывается задержанная во времени не его копия, а выходной сигнал. Такой процесс происходит следующим образом. В первый момент времени входной сигнал проходит на выход без изменений. Затем, по истечении времени задержки, он снимается с выхода, его амплитуда умножается на какой-то коэффициент A (обычно имеющий значение меньше 1, что фактически приглушает сигнал) и суммируется со входным сигналом. И снова, по прошествии очередного промежутка времени задержки, уже смешанный сигнал снимается с выхода, снова перемножается на коэффициент A и в очередной раз суммируется с входным сигналом. Схематично механизм реверберации показан на рисунке:

Возьмем, например, значение коэффициента A, равным 0.5. Тогда сигнал, снятый с выхода по истечении времени задержки, будет изменен по амплитуде на значение, равное произведению амплитуды выходного сигнала на коэффициент A (то есть вполовину приглушен), и просуммирован со входным сигналом. Далее, просуммированный сигнал будет снова снят с выхода, умножен на коэффициент A и снова подан на вход, где будет просуммирован со входным сигналом. И так далее. Таким образом, чем выходной сигнал "старше", тем большее количество раз он был пропущен через "петлю" и тем более низкую амплитуду он будет иметь. Другими словами, в случае, если A < 1, то параллельно основному сигналу мы будем слышать многократное затухающее по амплитуде его повторение.

Следует опасаться случаев, когда А принимает значения больше 1. В таком случае каждый новый "виток" такого алгоритма преобразования сигнала будет приводить к увеличению амплитуды. В результате в какой-то момент времени произойдет перегрузка сигнала, что в свою очередь может привести к выходу из строя аппаратуры (усилителя или колонок). Точно такой же эффект можно наблюдать, если установить рядом микрофон и колонки, подключенные к одному и тому же усилителю.

Реверберация широко применяется в случаях, когда необходимо "украсить", обогатить звучание сольного инструмента или голоса, а также струнной, духовой групп или других голосов оркестра за исключением только ритм-секции.

Следует оговорить также проблему создания реалистичной реверберации. Дело в том, что вышеописанный механизм создания реверберации не учитывает многих обстоятельств. Если, скажем, мы хотим создать впечатление прослушивания музыки в зале, то следует учитывать, что звук, распространяющийся в зале, отражается не только от стен, но также и от кресел, пола и прочих поверхностей, которые порождают потоки дополнительных звуковых волн. Кроме того, каждая поверхность обладает свойством поглощения, в результате чего отраженный от этой поверхности сигнал может иметь несколько отличный от пришедшего сигнала спектр. По этой причине, для создания реалистичной реверберации пользуются значительно более сложными методами, которые фактически включают в себя объединения из нескольких механизмов, аналогичных тому, который мы рассмотрели выше.

Chorus. Эффект chorus (от англ. "chorus" - хор) назван так потому, что в результате его применения звучание сигнала превращается как бы в звучание хора или в одновременное прослушивание нескольких инструментов. Схема получения такого эффекта аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед смешиванием со входным сигналом. Процесс понижения или повышения частоты уже оцифрованного сигнала является достаточно трудоемкой работой, так как этот процесс происходит путем разложения сигнала на частотный составляющие.
Увеличение количества "голосов" в хоре достигается путем добавления копий сигнала с различными временами задержки.

Flanger (от англ. "flange" - фланец, кайма). Реализация этого эффекта напоминает реализацию эффекта эха или хора. То есть, основной сигнал смешивается с его копиями, но слегка задержанными (обычно до времени в 5-15 миллисекунд). Кроме того, эти копии могут быть частотно модулированными, при этом время задержки постоянно изменяется. В результате на выходе получается плавающий звук с биениями частот или хор с измененными тембрами копий основного сигнала. При определенном соотношении задержек, частоты и глубины модуляции возможно получение эффекта, напоминающего восприятие гудка проезжающего мимо слушателя паровоза. В аналоговых устройствах флэнжер достигается путем пропускания сигнала через гребенчатые фильтры. А обнаружен этот эффект был чисто случайно, когда два магнитофона одновременно воспроизводили одну и ту же запись в одном из них случайно задели ведомый ролик пленки (фланец), то есть фактически задержали скорость воспроизведения. От смешивания двух фонограмм возник эффект плавания звука. Этот эффект удивил звукоинженеров своей новизной и в последствии флэнжер стал широко использоваться при написании музыкальных композиций.

Phaser (от англ. "phase" - фаза). Также основан на смешивании входного сигнала с его копиями, сдвинутыми в пределах фазы сигнала. Вообще говоря, сдвиг по фазе аналогичен сдвигу во времени на доли миллисекунд. Может применяться сдвиг по фазе не на фиксированные значения, а изменяющийся по какому-то фазомодулирующему закону. В результате такой эффект может восприниматься на слух как "качание" частот, то есть приглушение то одних, то других. В случае обработки стерео сигнала частоты могут "переплывать" из одного канала в другой. В аналоговой технике для получения фэйзера прибегают к использованию фазовращателей.

Преобразование амплитуд

Distortion. Эффект дистошн (от англ. "distortion" - искажение) основывается на использовании амплитудной модуляции. Фактически это замена одних значений амплитуд сигнала другими значениями. За счет переусиления, когда происходит срезание верхушек входного сигнала, можно получить, например, классический вариант гитары heavy metal (то есть сигналу придается скрежетание или своеобразная "хрипота"). Применение такого эффекта приводит к довольно резкому искажению входного сигнала (в зависимости от глубины модуляции), в результате чего сигнал становится похож на прямоугольный, и как следствие происходит расширение спектра сигнала.
Классический механизм получения эффекта следующий:

Входной сигнал смешивается с его копией, подвергнутой преобразованию в блоке distortion. Блок имеет два уровня сигнала: пороговый и верхний. Если амплитуда входящего в блок сигнала не превышает порогового уровня, то сигнал проходит на выход блока без изменений. Если же амплитуда сигнала выше порогового уровня, то блок усиливает такой сигнал до верхнего уровня. Пример применения эффекта distortion к синусоидальному сигналу приведен на рисунке:

Envelope (от англ. "envelope" - огибающая). Представляет собой изменение огибающей амплитуды сигнала. С помощью такого преобразования можно, например, сигнал, записанный с равномерной громкостью (интенсивностью) на всей его протяженности, сделать медленно нарастающим вначале и медленно спадающим в конце.

Tremolo. Реализуется путем амплитудной модуляции сигнала. Частота амплитудно-модулирующей функции не должна превышать 10-12 Гц. Фактически тремоло представляет собой частный случай амплитудного вибрато (см. ниже) с коэффициентом глубины модуляции, равным единице. На слух тремоло воспринимается как дрожание звука.

Частотные преобразования

Частотные преобразования могут проводиться над спектром сигнала или над частотой воспроизведения сигнала. Как мы говорили, на основе частотных преобразований спектра реализуются различные фильтры и эквалайзеры. Принцип действия их состоит в следующем. Входной сигнал раскладывается на частотные составляющие. Затем, в зависимости от производимых действий, какие-то составляющие могут быть полностью приглушены, а какие-то просто изменены по амплитуде. В результате на выходе получается сигнал с отфильтрованными частотами. Частотные преобразования применяются как для "технических нужд" (например, при очистке сигнала от ненужных постоянных шумов), так и для придания звучанию новой окраски. Как уже говорилось выше, разложение сигнала на частотные составляющие и их дальнейшая обратная свертка в сигнал - достаточно трудоемкая операция, поэтому частотные преобразования трудновыполнимы в режиме реального времени. Однако, мощность современных процессоров иногда позволяет производить такие действия.

Vibrato (от англ. "vibrate" - вибрация). Частотное вибрато достигается путем частотной модуляции сигнала с небольшой частотой и малой глубиной модуляции. Воспринимается как завывание звука.

Vocoder (сокращение от англ. "vocal coder" - кодировщик вокала). Способ модуляции сигнала с широким спектром в соответствии с формантными областями голоса. В результате таких преобразований исходный сигнал (например, звук скрипки или гитары) звучит подобно голосу. Создается ощущение поющего или говорящего инструмента. Эффект часто находит применение, например, при создании "компьютерного голоса".

Karaoke. Прежде чем приступить к рассмотрению karaoke, необходимо дать небольшое пояснение, почему karaoke был отнесен к частотным преобразованиям. Действительно, karaoke не в полной мере относится к звуковым эффектам в привычном понимании - он не придает звуку никаких особенностей и никак не облагораживает его. Это даже не совсем эффект, - это больше специфический механизм. Однако этот механизм действительно относится к группе эффектов, основанных на частотных и амплитудных преобразованиях. Итак, karaoke - это механизм удаления из песни вокала исполнителя, для получения т.н. "минусовки" - "-1". Эта "минусовка" в дальнейшем может использоваться как фонограмма при собственном пении. Рассмотрим принцип работы этого механизма. Обычно голос исполнителя находится посредине стерео панорамы. В таком случае удалить голос исполнителя можно путем вычитания одного канала из другого. Следует учитывать, что если голос исполнителя находится не посредине стерео панорамы, то перед вычитанием необходимо сначала уравнять амплитуды сигналов левого и правого каналов. Возможен также вариант, когда в обрабатываемой песне присутствуют голоса нескольких исполнителей. В этом случае удаление голосов производится путем фильтрации соответствующих частот. Однако в любом случае, каким бы способом не производилось удаление голоса (голосов), качество полученной фонограммы всегда будет ощутимо хуже качества звучания оригинала.