Общие сведения о кодировании звука

Прежде чем начинать разговор о программе Sound Forge (кстати, название переводится как «кузница звуков»), я хотел бы напомнить вам некоторые основные понятия, относящиеся к параметрам звуковых файлов, чтобы вы могли «ковать» их с полным понимание того, что делаете.

Помнится, в «Самоучителе работы на компьютере. Начинаем с Windows» я рассказывал о том, что такое частота дискретизации и глубина оцифровки, даже картиночку рисовал. Однако есть у меня такое смутное подозрение, что не все читатели этой книги читали ту. И другое есть у меня смутное подозрение: не все, кто читал тот самоучитель, сохранили в памяти мой тогдашний рассказ и помнят мою тамошнюю картиночку. Если к вам мои смутные подозрения никакого отношения не имеют, можете через эту главу перескочить.

Звук в природе имеет непрерывную (аналоговую) форму. Если мы посмотрим на осциллографе (если, конечно найдем в природе осциллограф!) сигнал, который идет с микрофона или с гитарного звукоснимателя, то увидим плавную кривую сложной формы. Сколько бы мы ни увеличивали масштаб изображения, кривая остается плавной, непрерывной.

Но компьютер с аналоговыми сигналами не работает, ему непременно требуется перевести их в цифровую форму, чем, собственно говоря, и занимаются звуковые карты наших компьютеров. Точнее, их аналого-цифровые преобразователи (АЦП).

Цифровой сигнал - это всегда некоторое приближенное и упрощенное представление аналогового. АЦП через определенные интервалы времени из-

меряет уровень сигнала на входе и записывает полученное число на диск. Последовательность этих чисел и составляет звуковой файл (wav-файл).

Понятно, что чем чаще измеряется уровень на входе (то есть чем чаще идут вертикальные линии на рисунке 3.1), тем точнее цифровой сигнал воспроизводит форму аналогового. Этот параметр и есть частота дискретизации.

Рис. 3.1. Оцифровка аналогового сигнала

Такая же ситуация и с уровнями сигналов - чем чаще идут горизонтальные линии, тем точнее узелки попадают на кривую. Но компьютер может записать напряжение на входе звуковой карты только с определенной точностью, зависящей от размеров числа, которым может быть представлена громкость.
Если для этого отводится 1 байт (8 бит), - это одна точность (256 горизонтальных линий), если 2 байта (16 бит), - совсем другая (65 536 линий), а если 4 байта ( 64 бита, 18 446 744 073 709 551 616 линий), то уж совершенно и несравненно другая. Вот этот параметр и называется глубиной звука (bit rate).

На аудиодисках (обычных компактах с музыкой) частота дискретизации всегда 44,1 кГц (вдвое выше того, что может слышать человеческое ухо), а глубина звука 16 бит (2 байта). Таково же наивысшее качество звука большинства звуковых карт. Но профессиональные и даже полупрофессиональные карты нового стандарта могут писать и с частотой 96 кГц, глубину звука иметь 4-байтную и даже выше, что обеспечивает супервысокое качество сигнала, а главное - минимум специфических цифровых искажений при его обработке.

Не надо только творить себе кумира из всех этих циферок, понимая, что в конце работы звук все равно приходится писать на компакт-диск, где царит магическое «44x16». Только на DVD может быть что-то другое. Но, наверное, один человек из тысячи способен на слух определить, где «44x16», а где «96x32». Все остальные замечают только бешеную разницу в размерах файлов и, конечно, в цене.

Про размеры, кстати, тоже надо поговорить. С ростом качества звука размеры файлов растут очень быстро. Одно дело записывать на диск каждую секунду по

11 КБ, что бывает при частоте дискретизации 11 кГц, 8-битной глубине и моносигнале (11 кГц х 1 Б х 1 канал - моно), и совсем другое - 172 КБ1 (44,1 кГц х х 2 Б х 2 канала - стерео). Разница, как видите, в пятнадцать с лишним раз.

Если же взять файлы при частоте 96 кГц и глубине звука 24 бит, то выйдет и вовсе сумасшедшая цифра - около 4,5 МБ в секунду. Это значит, что каждая минута звучания будет весить 270 «метров», а 50-минутный альбом потянет уже 1,4 ГБ! Файлам такого размера места хватит только на DVD.

Для справки привожу табличку, в которой показано, на сколько мегабайт потянет одна минута звука при использовании самых распространенных форматов звука.

Частота дискретиза- ции, кГц	Глубина звука, бит	Моно или стерео	Размер файла длиной 1 мин, МБ	Применение
11	8	Моно	5,2	Используется при записи речи
22	8	Моно	10,3
22	8	Стерео	20,6
22	16	Моно	20,6	Используется при записи речи и простых звуков
22	16	Стерео	41,3
44,1	16	Моно	41,3	Стандарт CD и большинства звуковых карт
44,1	16	Стерео	82,5
48	16	Моно	45	Стандарт некоторых звуковых карт
48	16	Стерео	90
44,1	24	Моно	61,9	Используется при записи на высококачественном оборудовании
44,1	24	Стерео	123,8
48	24	Моно	67,5
48	24	Стерео	135
96	24	Стерео	270	Стандарт DVD

Но вся эта арифметика работает только до тех пор, пока в действие не вступает царица наук - высшая математика. Я имею в виду математические и акустические алгоритмы компрессирования звука в файлах формата Windows Media, Ogg Vorbis или МРЗ. Компрессия уменьшает размеры файла в десятки раз. Так, при качестве звука 44 кГц стерео и потоке 64 КБ/с, который в проигрывателе Windows Media назван «лазерным качеством», секунда звучания «весит» всего 7 кило, а при максимальном потоке в 128 КБ/с - 15.

Конечно, компрессия ухудшает качество звучания. Для аудиофилов это заметно, а иной раз и нестерпимо, для любителей заметно, но терпимо, а иной раз даже и незаметно. Зато такие файлы можно скачивать из Интернета не сутками и месяцами, а гораздо быстрее - за минуты, в крайнем случае - десятки минут. И на один компакт-диск поместится не один альбом любимой группы, а вся дискография за десять лет интенсивной работы.

Или 176 тысяч байтов.

Содержание раздела