Вокодеры

Все права в отношении данного документа принадлежат автору. Воспроизведение данного текста или его части допускается только с письменного разрешения автора.

Вокодеры используются не только в музыкальной индустрии, но и в коммуникационных технологиях. В последних они делятся на два класса: фонемные (речеэлементные) и параметрические. В принципе фонемных лежит запоминание отдельных фраз, речевых оборотов. Благодаря этому запоминанию на воспроизводящий элемент передается не сама речь, а ее элементный номер. Это широко применялось и применяется в системах управления голосом, а также чтения текста с преобразованием в звук. В качестве простого примера можно привести звуковые схемы Windows, интерактивно реагирующие на то или иное событие. Если эти звуковые сигналы заменить на человеческую речь, то мы получим самый легкий пример речеэлементного вокодера. Системе сообщается не сам звук, а имя файла, который надо воспроизводить. Параметрические вокодеры состоят из фильтрового и генераторного подблоков. Первый подблок отвечает непосредственно за речевой спектр, второй - за тоновый спектр. В основе этого разделения лежит природа воспроизведения человеком различных звуков.

Сейчас многие говорят о голосовой связи посредством сети Интернет, и уже выпущено несколько моделей фразовых вокодеров для Netscape (MiO plug-in), а также для других браузеров. Это прежде всего эмуляции телекоммуникационных вокодеров, которые выполняют задачу передачи человеческой речи на большие расстояния с малым сетевым трафиком. Другое применение - фонемные вокодеры для чтения текста. Например, преобразование текста html-страницы в речь.

Поэтому Вы должны понять, что фразу "вокодер" звуковик и телекоммуникационщик поймут по-разному. Хотя и в том, и в другом случаях природа устройств похожа, если не одинакова.

Самые простые вокодеры - это полосные. Их реализацию можно увидеть во многих программных продуктах. В основе данного устройства лежит принцип разделения сигнала на полосы с помощью специальных фильтров. Чем больше полос, тем качественнее сигнал при передаче данных. Но для музыки имеют большое значение искажения, получаемые в определенных полосах, а также подмена тонального спектра речевых элементов на спектр другой природы.

Как простейшую имитацию вокодера можно привести простой графический эквалайзер. То есть, взяв исходный файл и разделив его на некоторое количество полос и записав их в отдельные файлы, мы с помощью применения каких-нибудь эффектов, в том числе и модуляционных, на каждом в отдельности можем изменять некоторые параметры речевого сигнала. Это больше похоже на многоблоковый метод, который я описывал ранее, который тоже находит место при создании современной музыки. Интересно применение на отдельные полосы эффекта fuzz.

Следующая разновидность вокодеров - гомоморфные. При помощи гомоморфной обработки они позволяют разделить речевой сигнал на генераторную и фильтровую части.

Кроме этого, вокодеры бывают формантные (форманты - резонансные частоты голосового тракта, в основе действия вокодера лежит их комбинация); ортогональные (гармонические, раскладывают речь по определенному алгоритму, в частности, ряд Фурье) и LPC-вокодеры (еще называются липредерами - линейное предсказание речи), основанные на сложных математических моделях).

В основе устройств, используемых в музыкальной сфере, могут применяться любые алгоритмы вокодирования, а также их сочетания. Имеет место и разделение фильтров речевых сигналов и генераторной функции. Если фильтры, описывающие непосредственно речевые элементы, не трогать, а изменить только основной генерируемый тон, то в результате мы можем получить речь с новым тембром.

Наиболее широкое распространение получило совмещение синтетического звука клавиш с loop'ом ударных и гитары с человеческим голосом. В результате получаются радикально новые тембры, что и является хорошим воплощением для многих музыкальных идей.

В качестве тембровой составляющей может быть использован обыкновенный тон-генератор, синтезированно моделирующий как один тон отдельно, так и спектр тонов. В результате мы можем задать уровень звучания тон-генератора в определенном спектре частот. При микшировании исходного звука и генерируемого тона мы можем получить смесь того и другого. Причем уровневое распределение спектра частот, генерируемых тон-генератором, позволяет получить совершенно различные по качеству и наполнению звуки. Например, при малом уровне тон-генератора в пределах 800-3000 Гц мы можем получить легкий синтетический отзвук от звучания гитары. Под это описание как нельзя лучше подходит программа plug-in Steinberg Vocoder. В данной программе, помимо управления уровнем на определенных частотах, можно управлять и формой генерируемого сигнала, что позволяет разнообразить сами звуки.

По качеству получаемых новых звуков данный вокодер можно оценить высоко. Звуки являются динамичными, глубокими по тембру, хотя и синтетическими. Это, можно сказать, бич вокодеров, реализованных в "цифре".

Другой принцип, широко используемый в устройствах вокодеров, - составление математической модели определенного голоса. Это формируется, в основном, посредством фильтров (каналов), описывающих элементы голоса. В результате, имея на вооружении данную модель, ею можно управлять. Представьте себе, что в 1939 году Homer.W. Dudley изобрел устройство Parallel Bandpass Vocoder - устройство, способное анализировать и воспроизводить элементы речи. Он, кстати, является и первооткрывателем. Буквально через год (в 1940) он уже создал синтезатор человеческой речи. Прослушав сэмпл, сделанный с данного устройства, я пришел к выводу, что сейчас мы слышим практически то же устройство, правда, реализованное гораздо более разнообразно, но по качеству оно ничем не уступает современным аналогам. В то время вокодеры использовались в коммуникационных целях (радио, телефония).1948 год. Германия. "Electronische Musik". Вокодер представлен как электронный инструмент будущего. Вот и началась эра вокодеров. Схематика практически не изменилась.

Хотя мы, конечно, немного и углубились в историю, что считаю крайне полезным, Вы поняли, что суть состоит в математической модели.

Итак, берем второй пример, plug-in Arboretum Hyperprism Vocoder. Принцип действия следующий. Вы составляете стереофайл, где в правом и левом канале должны быть разные инструменты. Например, левый - гитара, правый - голос. 26-полосная фильтрация, заложенная в программе, создает некую математическую модель звука гитары. После чего она применяет получившуюся модуляцию относительно звучания голоса. В результате мы получаем интересную тембровую окраску голоса, похожую на голос робота. Это и есть эффект вокодера, созданного посредством составления модели звука-образца. Сейчас известно много принципов, лежащих в основе трансформаций сэмпла, базируемого на временном представлении в частотное представление. Одна из таких трансформаций называется Fast Fourier transforms FFT. При желании интересующиеся могут найти ее листинг в Интернете.

Примерно такую же релизацию вокодера, как и в Hyperprism, можно найти в бета-версии plug-in Trashcoder (freeware на www.neurosonic-systems.de) и программке под DOS Zerius Vocoder (freeware на zerius.com/vocoder или ftp://ftp.zerius.com/pub/zerius/vocoder/). В результате работы Вы можете получить говорящую гитару, озвученные ударные. Но недостатки все-таки есть. Дело в том, что все это больше напоминает электронные кибернетические голоса, нежели говорящие "живые" инструменты. Самый, я бы сказал, большой минус вокодеров в том, что их звуки очень похожи. Причем у аналоговых вокодеров они свои, у цифровых - свои.

Помните, я рассказывал о разделении исходного файла на частотные полосы с последующей обработкой каждых? В принципе, этот эффект похож на действие plug-in'ов, особенно, если отдельно взятые полосы обработать флэнджером. Несмотря на то, что в математических моделях заложена разная природа, получившиеся звуки являются подобными.

В продолжение хочется упомянуть о том, что эффект кибернетического голоса можно достичь и простым флэнджером, яркий пример GoldWave -" Effects -"Flange -"Robot(2). К тому же близко к этому будут эффекты эквалайзинга (например, звук AM-станции Waves plug-ins), Mechanize (GoldWave), Stutter (старая-добрая Wave SE II). В основе статтеров лежат искажения, полученные в результате мелкого дробления синусоиды на составляющие. В результате файл растягивается, а при воспроизведении устройство дает дополнительные искажения, получившиеся в результате неравномерности сигнала. Этот эффект пытались реализовать многие, и даже сейчас он является составной частью некоторых программных эффектов. Только была одна трудность: треск оказывался очень большим из-за отсутствия в компьютерных технологиях хороших сглаживающих фильтров. Вы, когда неправильно обрежете сэмпл, слышите щелчок?

Ну а самый простой способ получить звук AM-станции - это переформатировать файл в формат 11 КГц 8 бит :).

Как видите, систем искажения голоса и получения звука радио, телефонной трубки, голоса робота может быть очень много, причем и реализованы они могут быть совершенно разными способами.

Несомненно, звук современных вокодеров еще связан и с питчем. Частотное управление звуком является составляющей алгоритмов действия вокодера. Изменение частоты может вполне гармонично сочетаться с музыкальными элементами, а также составлять элементы мелодии (как мы это слышали в "Пятом элементе"). На самом деле в питче интересен сам питч:), поскольку, очевидно, он имеет не ту природу формирования звука. Дело в том, что наше звукоизвлечение разделяется на много составляющих, некоторое количество из которых постоянно. То есть в процессе разговора или пения определенные частоты у нас неизменны. Питч же транспонирует "всю пачку", и в результате мы слышим электронную природу преобразования. Попробуйте записать голос. Скопируйте файл. Во втором сделайте питч на 7 полутонов и смикшируйте два файла. В результате у Вас получится интересная питчевая "подзвучка", уровень которой управляется простым микшированием. Для того, чтобы эта подзвучка не звучала слишком правильно, попробуйте применить эффект wah-wah на один из треков. И в конце загрязните исходный файл одним из способов, приведенных выше. Результат будет не хуже вокодера с тон-генератором.

Нормальное real-time-управление питчем на компьютерах в программных пакетах вряд ли возможно. Поэтому здесь можно прибегнуть к ручке питча, установленной на MIDI-клавиатуре, прошив перед этим голосовой сэмпл в wavetable, а также в звуковом редакторе в не real-time-режиме. Для плавности перехода нот от одной к другой возможно применение эффекта Doppler. Также следует отметить как лучший программный пакет Sonic Foundry Acid, в котором изменения питча можно запрограммировать. Сейчас уже появляются новые программные пакеты и plug-in'ы, способные обеспечить управление плавным изменением питча в сэмпле, кои, если выйдут на некоторый качественный уровень, мы рассмотрим в новом, 2000-м, году.

В общем, в современном понимании музыкальный вокодер - устройство, позволяющее смешивать частоты с разных источников звука по определенным математическим алгоритмам, а также производить фильтрацию определенных частот.