WebSound.Ru: SPEAR - инструмент анализа и редактирования звука

SPEAR - инструмент анализа и редактирования звука

Очень, очень интересный инструмент редактирования и анализа звуковых сигналов попался мне на глаза. Инструмент называется SPEAR. SPEAR расшифровывается как Sinusoidal Partial Editing Analysis and Resynthesis - я бы перевёл это как "анализ и ресинтез звука методом частичных синусоид". Признаться, метод, который реализует программа, был мне неизвестен, однако он оказался вполне интуитивно понятен, будет понятен и всякому, кто хоть немного работал со спектрами и FFT.

SPEAR - это программа, в графическом виде реализующая идею метода McAulay-Quatieri. Повторюсь, метод мне известен не был, поэтому я почитал о нём вот тут. Расскажу о нём вам в двух словах "на пальцах".

Метод был разработан в 1986 году как некоторое обощение преобразования Фурье. Что делает БПФ? Оно преобразует сигнал в набор частотных коэффициентов, использовав которые можно получить сигнал обратно путём их синтеза - сумирования синусоид с этими коэффициентами (обсуждение периодичности сигналов и наложения окон мы тут опустим). Иными словами, по сути, если с помощью БПФ анализируется некоторый длинный непериодический аудио сигнал, то БПФ преобразует его в набор блоков, каждый блок независим от других и содержит набор коэффициентов для синтеза сигнала этого блока. Ключевой момент здесь заключается в том, что информация в блоках не зависит от соседей. Но, ведь, аудио сигналы - это не просто набор разрозненной информации, а некая звуковая волна, которая развивается вполне конкретным образом. Скажем, речь, точнее, фонема - это, в основном, набор гармоник (синусоид), синусоиды появляются с какой-то скоростью, затем изменяют свою частоту (высота тона), затем угасают - так приблизительно выглядит фонема. Так вот, БПФ это развитие во времени никак не учитывает. Его можно только проследить графически, если взглянуть на спектрограмму сигнала (представляющую собой графическое отображение последовательного набора данных из БПФ-блоков сигнала). Вот, например:

Типичная картинка речи.Видите,каквполнеясно различимы гармоники, как они появляются, затухают, изменяются по частоте... Так вот, в БПФ всё это можно увидеть только на спектрограмме, математически блоки коэффициентов друг с другом не связаны (тут, конечно, можно вспомнить про кепструм - "спектр спектра", но это другая тема).

Так вот, метод McAulay-Quatieri как раз и разработан, чтобы обнаружить связь между блоками и разбить сигнал не просто на блоки, а на компоненты (в частности, гармоники), каждая их которых имеет свою начальную фазу, изменяемую частоту и амплитуду. Вот как результат такого анализа выглядит графически в программе SPEAR:

Как видите, в результате получается почти что та же спектрограмма, только гармоники выделены линиями в виде отдельных компонент. Так вот, теперь, поскольку всё это - отдельные компоненты, их можно изменять и редактировать по отдельности, как объекты - поднимать по спектру выше или опускать ниже, растягивать, сжимать, передвигать и проч. Иными словами, аудио сигнал представляется в виде отдельных редактируемых объектов. В процессе редактирования результат можно слушать (отредактированный сигнал синтезируется обратно из компонент, почти как при синтезе из БПФ), а также результат можно записать в файл.

Что по сути позволяет делать такая штука. Ну, первое, как я сказал, - это просто графическое отображение. Но самое интересное - это именно представление сигнала в виде объектов. Ведь объекты можно подразделить на малозначимые и более значимые (по их "вкладу" в сигнал) и тогда, выбросив ненужные и синтезировав сигнал назад мы, фактически, "упрощаем" его, что делает его гораздо более хорошо сжимаемым всякими статистическими алгоритмами сжатия. Далее, объекты можно, ведь, растягивать и сжимать - значит, можно менять скорость воспроизведения не изменяя высоты тона, и наоборот, изменять высоту тона, не меняя скорости (pitch shift). Третье - сигнал можно записывать не в виде синтезированного результата, а в виде непосредственной структуры объектов, а при передаче по каналам связи, скажем, передавать тот набор компонент, который необходим (в зависимости от "ширины канала"), иными словами, имеем масштабируемость потока данных.

В общем, потенциал тут огромный, и, вот, как раз, чтобы экспериментировать с методом McAulay-Quatieri и была создана программа SPEAR.

Программа бесплатана и кросс-платформенна, так что качайте и развлекайтесь. Оень интересно, очень! Скажем, начните с кусочка речи, потаскайте компоненты, послушайте результат. Потом возьмите музыку, посмотрите, что получается на ней. Я ещё всякие тестовые сигналы в Audition насинтезировал (синусы, свип-тоны).

http://www.klingbeil.com/spear/ - всё тут.

Спасибо zipp за наводку!

Вашими мыслями вы можете делиться в комментариях к заметке.

Читать весь 186-й номер
Перейти в архив выпусков WebSound.Ru

Ниже располагаются комментарии к этой заметке

Пожалуйста, обратите внимание! Если вы хотите что-то сообщить автору WebSound.Ru, лучше сделать это не здесь, а направить ваше сообщение по e-mail. Пожалуйста, составляйте свои комментарии в вежливой форме. Не засоряйте сайт бессодержательными и невежливыми сообщениями.