Понятие о цифровом звуке для чайников.

InvisibleCat · 26.06.2013, 19:53

Понятие о цифровом звуке (или ликбез для чайников).

Начнём с, казалось бы, глупого вопроса - а что же такое звук? Конечно, вы ответите, звук - это то, что мы слышим. И будете абсолютно правы. Но почему мы это слышим? И что же мы в самом деле слышим?

Привычное для всех нас понятие "звук" означает всего лишь воспринимаемый слуховым аппаратом человека набор звуковых колебаний. Звуковая волна (звуковые колебания) – это передающиеся в пространстве механические колебания молекул воздуха, создающие периодические изменения его давления. А любые колебания, как известно из физики, характеризуются амплитудой (интенсивностью), частотой и фазой.

Человек среднего возраста может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. С возрастом этот диапазон немного снижается. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Основную информацию о звуковых колебаниях мозг получает в области до 4 кГц (поэтому, кстати, человеческое ухо имеет наибольшую чувствительность в районе 1÷2 кГц). Связано это с тем, что все основные жизненно необходимые человеку звуки находятся именно в этой спектральной полосе, до 4 кГц (голоса других людей и животных, шум воды, ветра и проч.). Частоты выше 4 кГц являются для человека лишь вспомогательными. В целом, принято считать, что низкие частоты "ответственны" за разборчивость, ясность аудиоинформации, а высокие частоты – за субъективное качество звука. Для передачи звука "как он есть" желательно сохранить весь, хоть как-либо, воспринимаемый диапазон от 10 Гц до 20 кГц.

В звуковой аппаратуре звук представляется либо непрерывным электрическим сигналом, либо набором цифр (нулей и единиц). Аппаратура, в которой рабочий сигнал является непрерывным электрическим сигналом (аналогом исходного звукового сигнала), называется аналоговой аппаратурой (например, магнитофон), а сам рабочий сигнал – аналоговым сигналом. Аналоговый сигнал с помощью специального преобразования может быть представлен в виде цифрового сигнала – некоторой последовательности чисел.
Процесс такого преобразования заключается в осуществлении измерения величины (амплитуды) аналогового сигнала через определённые промежутки времени (дискретизации) и последующей записи полученных значений амплитуды в виде цифровых значений – квантовании.

Количество осуществляемых в одну секунду измерений величины сигнала называют частотой дискретизации / частотой выборки / частотой сэмплирования (от англ. "sampling" – выборка). Очевидно, что чем чаще мы будем измерять амплитуду (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней / шагов квантования), тем более точное представление сигнала в цифровом виде мы получим.

Стандартный аудио компакт-диск хранит информацию с частотой дискретизации 44100 Гц и разрядностью квантования 16 бит, что даёт 65536 (2 в 16 степени) уровней измерения амплитуды. Математически доказано, что максимальная частота оцифрованного сигнала равна половине частоты выборки. Таким образом, можно сказать, что частот выше 22050 Гц на аудиодиске нет, а динамический диапазон (разница между максимальной амплитудой (0 дБ) и наименьшей амплитудой, которую позволяет передать разрешение 16 бит), составляет примерно -93 дБ.

Для сравнения:

ГОСТ 5289-88/94 - Грампластинки аналоговые IEC 98 (20-20000Гц, шум немой канавки -60dB)
а по его предшественнику
ГОСТ 7893-72 - Звукозапись механическая на диск (31.5-16000Гц, шум -53dB относительно 1кГц при 10см/с)

Сжатие звука

В принципе, можно хранить звук и в таком виде, что представлен на аудиодиске. Но когда размер коллекции составляет сотни, а то и тысячи треков, то неизбежно возникает желание как-нибудь уменьшить занимаемый ими объём. А тут ещё и распространение портативных устройств, способных воспризводить цифровой звук, но которые, (вот незадача!) имеют не очень большой объём памяти для этих целей...

И вот здесь есть два пути.

Первый - это постараться найти способ сжатия исходного сигнала так, чтобы сохранить всю содержащуюся в нём информацию без потерь, так, чтобы при воспризведении получить на выходе оригинальное звучание исходных аудиоданных.

Такой способ называется lossless coding. Существующие сегодня алгоритмы сжатия без потерь (например, алгоритмы, реализованне в кодеках Monkeys Audio, Flac, WavPack, ALAC и других) позволяют сократить занимаемый данными объём на 20-50%, и при этом обеспечить стопроцентное восстановление оригинальных данных из данных, полученных после сжатия. Подобные кодеры – это своего рода архиваторы данных (как, например, ZIP, RAR и другие), только заточенные специально для сжатия аудиоинформации, учитывающие особенности звуковых файлов. Подробнее о них можно узнать в статьях Что такое Lossless (кодеки сжатия без потерь) и Lossless, как много в этом звуке...

Второй путь - это сжатие с потерями lossy coding. Здесь уже вступает в действие другая идеология: максимальное уменьшение объёма данных, при этом поступившись (до определённых пределов) качеством звучания. Достигается это удалением (потому и называется "с потерями") "лишней" (по мнению программы, осуществляющей такое сжатие) информации.

А, поскольку при сжатии часть информации удаляется, то, соответственно, "на выходе" мы уже не получим стопроцентного восстановления исходного звука, хотя звучать будет очень похоже. В основе почти всех lossy-кодеров для упрощения оригинального сигнала лежит использование так называемой психоакустической модели. Замаскированные частоты, неслышимые и слабослышимые (на фоне одновременно с ними звучащих более громких звуков) частоты и детали звучания, кратковременные малозаметные всплески частот и проч. – всем этим можно пожертвовать с целью достижения более высокой компрессии. Программа кодирования выполняет анализ сигнала, в процессе которого определяются участки, в которых имеются неслышные человеческому уху нюансы, после чего происходит их удаление из оригинального сигнала. Сегодня существует множество кодеров аудиоданных, основанных на идее кодирования с потерями. Вот только некоторые из них: MPEG-1 Layer 3 (всем известный как MP3), Windows Media Audio (WMA), Ogg Vorbis (OGG), MusePack (MPC), MPEG-2/4 AAC и другие. Подробнее о lossy форматах можно прочитать в статье Что такое Lossy (кодеки сжатия с потерями).

И вот в lossy форматах, кроме частоты дискретизации и разрядности квантования, становится очень важным, я бы даже сказал - решающим, ещё один параметр, коренным образом определяющий качество результирующего звука. Это битрейт, то есть количество данных в единицу времени, (для аудио - количество бит, используемых для хранения одной секунды аудио). Если для сжатия без потерь величина битрейта никак не влияет на качество результирующего звука, то в lossy прямая зависимость - чем ниже битрейт (а значит чем меньше бит позволяется кодеру отводить для хранения информации об одной секунде аудио), то, соответственно, тем сильнее кодер упрощает сигнал, что таким образом влияет на качество звучания получаемого сжатого потока аудио. По аналогии можно привести такой пример, как запись на магнитную ленту при заданной скорости протяжки. Чем выше скорость, тем больше информации размещается на определённом отрезке плёнки, тем качественней будет звук или изображение.

Для тех, кто не хочет сильно углубляться в подробности скажу, что для наиболее распространённого MP3 принято считать: для вполне качественного звучания поп- и классической музыки достаточно битрейта в районе 160-192 Кбит/с. Если же речь идет о насыщенной электронной, инструментальной или рок-музыке, то здесь к битрейту предъявляются более высокие требования. В случае, когда необходимо сжать чисто голосовой материал (лекции, например), то здесь можно использовать сверхнизкие битрейты, даже ниже 64 Кбит/с, поскольку в этом случае важно не само качество звучания, а лишь разборчивость речи при воспроизведении. Кодеки Ogg Vorbis и MusePack дают в среднем заметно лучшие результаты кодирования на средних и высоких битрейтах по сравнению с MP3. Это утверждение справедливо для битрейтов 160 Кбит/с и выше. Кодек MPEG -2/4 AAC является продолжением MP3 и выигрывает у последнего на всех битрейтах. Но на сегодняшний день, несмотря на все ухищрения конкурентов, MP3 вот уже который год упорно держит свои позиции по соотношению размер/качество.

Остаётся упомянуть, что существует три режима сжатия потоковых данных:

• CBR (Constant bitrate) – с постоянным битрейтом, не меняющимся, одинаковым для всего потока. Задаётся точный размер выходного файла. Минусом такого типа кодирования являются громоздкие объёмы полученных данных, которые нерационально используют дисковое пространство.

• VBR (Variable bitrate) – с переменным битрейтом. Каждый фрагмент сжимается с разным количеством используемых для хранения данных. Выбор битрейта, оптимально подходящего для кодирования данного фрагмента, осуществляется самим кодером путем анализа сложности сигнала в каждом отдельном фрагменте. Напрямую зависит от информативной ёмкости предоставленной информации (то есть, к примеру, битрейт тишины будет ниже, чем битрейт какого-либо звука). Основным минусом является то, что невозможно предугадать будущий размер кодируемого файла.

• ABR (Average bitrate) – с усреднённым битрейтом, что, по сути, является гибридом постоянного и переменного битрейтов: битрейт задаётся пользователем, но при этом кодирование производится в режиме переменного битрейта с сохранением неизменности его усредненного значения. Единственным минусом такого вида кодирования является то, что выходной файл будет иметь ухудшенное качество (однако лучше, чем CBR и хуже чем VBR). Используя такой тип кодирования, пользователь может выбирать как битрейт файла, так и его будущий размер – это основной плюс.

Таким образом, кодирование в режимах VBR и ABR является намного более гибким и, чаще всего, выгодным и качественным, нежели в режиме CBR.

__________________________________________________

Ну и, подводя черту всему вышесказанному, хочется привести строчку из песни... "Думайте сами, решайте сами - иметь или не иметь!"
то есть... жать или не жать. А если жать - то как и чем... вот в чём вопрос

29.09.2013, 16:39

InvisibleCat сказал(a):

"Думайте сами, решайте сами - иметь или не иметь!"
то есть... жать или не жать. А если жать - то как и чем... вот в чём вопрос

Кодирование аудио с потерями: вариации на тему выбора кодера и параметров

Vachek · 19.11.2016, 22:54

InvisibleCat сказал(a):

Стандартный аудио компакт-диск хранит информацию с частотой дискретизации 44100 Гц и разрядностью квантования 16 бит, что даёт 65536 (2 в 16 степени) уровней измерения амплитуды. Математически доказано, что максимальная частота оцифрованного сигнала равна половине частоты выборки. Таким образом, можно сказать, что частот выше 22050 Гц на аудиодиске нет, а динамический диапазон (разница между максимальной амплитудой (0 дБ) и наименьшей амплитудой, которую позволяет передать разрешение 16 бит), составляет примерно -93 дБ.

Принципы оцифровки звука изложены абсолютно точно, но...
Мне кажется, что тут будет более верным указать противоположный подход к описанию зависимости максимальной частоты сигнала и частоты дискретизации. Т.е. максимально возможная частота 22050 Гц на аудиодиске не потому, что стандартная частота дискретизации составляет 44100 Гц, а наоборот.
При разработке стандартов для оцифровки аналогового звука сначала была определена максимальная частота слышимого человеком звука, значение которой теоретически составляет как раз эти самые 22050 Гц. А затем, согласно теореме Котельникова, гласящей, что частота дискретизации должна быть в два раза выше максимальной частоты измеряемого сигнала, и было определено в качестве стандарта значение 22050 х 2 = 44100 Гц.

Vachek · 19.11.2016, 23:06

Разрядность преобразования, наряду с частотой дискретизации, другой важный параметр оцифровки звука.
Он определяет точность замера мгновенной величины сигнала.
Сигнал измеряется с шагом, соответствующим одному интервалу из максимального количества интервалов, на которые условно делится сигнал при измерении. Следовательно, точность преобразования составляет + 1 интервал.
Обычно применяют 8-ми, 16-ти и 20-ти - битные преобразования. Максимально возможная разрядность преобразования определяется звуковой картой, а именно АЦП, с помощью которого оцифровывают сигнал.
Например, при преобразовании входного сигнала с максимальным значением 100 % 8-битным преобразователем погрешность сигнала будет составлять
100 / 2 в 8-й степени = (+,-) 0,4 %,
а для 16-битного преобразования
100 / 2 в 16-й степени = (+,-) 0,0015 %.
Т.е., чем выше разрядность преобразования, тем точнее повторяется форма исходного сигнала. Естественно, как при увеличении частоты дискретизации, так и при увеличении разрядности преобразования геометрически увеличивается объем конечного файла.
В качестве разумного компромиcса стандартными значениями оцифровки звука, как было указано выше, выбраны:
частота дискретизации - 44,1 кГц;
разрядность преобразования (квантования) - 16 бит.

26.06.2013, 19:53	#1
InvisibleCat Главный Кинооператор Гуру Форума Регистрация: 06.09.2009 Адрес: между ангелом и бесом Сообщения: 1,530 Репутация: 1271	Понятие о цифровом звуке для чайников. Понятие о цифровом звуке (или ликбез для чайников). Начнём с, казалось бы, глупого вопроса - а что же такое звук? Конечно, вы ответите, звук - это то, что мы слышим. И будете абсолютно правы. Но почему мы это слышим? И что же мы в самом деле слышим? Привычное для всех нас понятие "звук" означает всего лишь воспринимаемый слуховым аппаратом человека набор звуковых колебаний. Звуковая волна (звуковые колебания) – это передающиеся в пространстве механические колебания молекул воздуха, создающие периодические изменения его давления. А любые колебания, как известно из физики, характеризуются амплитудой (интенсивностью), частотой и фазой. Человек среднего возраста может чувствовать звуки от 10 Гц до 20 кГц, осмысленно слышать - от 30 Гц до 16 кГц. С возрастом этот диапазон немного снижается. Звуки выше и ниже воспринимаются, но не составляют акустических ощущений. Основную информацию о звуковых колебаниях мозг получает в области до 4 кГц (поэтому, кстати, человеческое ухо имеет наибольшую чувствительность в районе 1÷2 кГц). Связано это с тем, что все основные жизненно необходимые человеку звуки находятся именно в этой спектральной полосе, до 4 кГц (голоса других людей и животных, шум воды, ветра и проч.). Частоты выше 4 кГц являются для человека лишь вспомогательными. В целом, принято считать, что низкие частоты "ответственны" за разборчивость, ясность аудиоинформации, а высокие частоты – за субъективное качество звука. Для передачи звука "как он есть" желательно сохранить весь, хоть как-либо, воспринимаемый диапазон от 10 Гц до 20 кГц. В звуковой аппаратуре звук представляется либо непрерывным электрическим сигналом, либо набором цифр (нулей и единиц). Аппаратура, в которой рабочий сигнал является непрерывным электрическим сигналом (аналогом исходного звукового сигнала), называется аналоговой аппаратурой (например, магнитофон), а сам рабочий сигнал – аналоговым сигналом. Аналоговый сигнал с помощью специального преобразования может быть представлен в виде цифрового сигнала – некоторой последовательности чисел. Процесс такого преобразования заключается в осуществлении измерения величины (амплитуды) аналогового сигнала через определённые промежутки времени (дискретизации) и последующей записи полученных значений амплитуды в виде цифровых значений – квантовании. Количество осуществляемых в одну секунду измерений величины сигнала называют частотой дискретизации / частотой выборки / частотой сэмплирования (от англ. "sampling" – выборка). Очевидно, что чем чаще мы будем измерять амплитуду (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней / шагов квантования), тем более точное представление сигнала в цифровом виде мы получим. Стандартный аудио компакт-диск хранит информацию с частотой дискретизации 44100 Гц и разрядностью квантования 16 бит, что даёт 65536 (2 в 16 степени) уровней измерения амплитуды. Математически доказано, что максимальная частота оцифрованного сигнала равна половине частоты выборки. Таким образом, можно сказать, что частот выше 22050 Гц на аудиодиске нет, а динамический диапазон (разница между максимальной амплитудой (0 дБ) и наименьшей амплитудой, которую позволяет передать разрешение 16 бит), составляет примерно -93 дБ. Для сравнения: ГОСТ 5289-88/94 - Грампластинки аналоговые IEC 98 (20-20000Гц, шум немой канавки -60dB) а по его предшественнику ГОСТ 7893-72 - Звукозапись механическая на диск (31.5-16000Гц, шум -53dB относительно 1кГц при 10см/с) Сжатие звука В принципе, можно хранить звук и в таком виде, что представлен на аудиодиске. Но когда размер коллекции составляет сотни, а то и тысячи треков, то неизбежно возникает желание как-нибудь уменьшить занимаемый ими объём. А тут ещё и распространение портативных устройств, способных воспризводить цифровой звук, но которые, (вот незадача!) имеют не очень большой объём памяти для этих целей... И вот здесь есть два пути. Первый - это постараться найти способ сжатия исходного сигнала так, чтобы сохранить всю содержащуюся в нём информацию без потерь, так, чтобы при воспризведении получить на выходе оригинальное звучание исходных аудиоданных. Такой способ называется lossless coding. Существующие сегодня алгоритмы сжатия без потерь (например, алгоритмы, реализованне в кодеках Monkeys Audio, Flac, WavPack, ALAC и других) позволяют сократить занимаемый данными объём на 20-50%, и при этом обеспечить стопроцентное восстановление оригинальных данных из данных, полученных после сжатия. Подобные кодеры – это своего рода архиваторы данных (как, например, ZIP, RAR и другие), только заточенные специально для сжатия аудиоинформации, учитывающие особенности звуковых файлов. Подробнее о них можно узнать в статьях Что такое Lossless (кодеки сжатия без потерь) и Lossless, как много в этом звуке... Второй путь - это сжатие с потерями lossy coding. Здесь уже вступает в действие другая идеология: максимальное уменьшение объёма данных, при этом поступившись (до определённых пределов) качеством звучания. Достигается это удалением (потому и называется "с потерями") "лишней" (по мнению программы, осуществляющей такое сжатие) информации. А, поскольку при сжатии часть информации удаляется, то, соответственно, "на выходе" мы уже не получим стопроцентного восстановления исходного звука, хотя звучать будет очень похоже. В основе почти всех lossy-кодеров для упрощения оригинального сигнала лежит использование так называемой психоакустической модели. Замаскированные частоты, неслышимые и слабослышимые (на фоне одновременно с ними звучащих более громких звуков) частоты и детали звучания, кратковременные малозаметные всплески частот и проч. – всем этим можно пожертвовать с целью достижения более высокой компрессии. Программа кодирования выполняет анализ сигнала, в процессе которого определяются участки, в которых имеются неслышные человеческому уху нюансы, после чего происходит их удаление из оригинального сигнала. Сегодня существует множество кодеров аудиоданных, основанных на идее кодирования с потерями. Вот только некоторые из них: MPEG-1 Layer 3 (всем известный как MP3), Windows Media Audio (WMA), Ogg Vorbis (OGG), MusePack (MPC), MPEG-2/4 AAC и другие. Подробнее о lossy форматах можно прочитать в статье Что такое Lossy (кодеки сжатия с потерями). И вот в lossy форматах, кроме частоты дискретизации и разрядности квантования, становится очень важным, я бы даже сказал - решающим, ещё один параметр, коренным образом определяющий качество результирующего звука. Это битрейт, то есть количество данных в единицу времени, (для аудио - количество бит, используемых для хранения одной секунды аудио). Если для сжатия без потерь величина битрейта никак не влияет на качество результирующего звука, то в lossy прямая зависимость - чем ниже битрейт (а значит чем меньше бит позволяется кодеру отводить для хранения информации об одной секунде аудио), то, соответственно, тем сильнее кодер упрощает сигнал, что таким образом влияет на качество звучания получаемого сжатого потока аудио. По аналогии можно привести такой пример, как запись на магнитную ленту при заданной скорости протяжки. Чем выше скорость, тем больше информации размещается на определённом отрезке плёнки, тем качественней будет звук или изображение. Для тех, кто не хочет сильно углубляться в подробности скажу, что для наиболее распространённого MP3 принято считать: для вполне качественного звучания поп- и классической музыки достаточно битрейта в районе 160-192 Кбит/с. Если же речь идет о насыщенной электронной, инструментальной или рок-музыке, то здесь к битрейту предъявляются более высокие требования. В случае, когда необходимо сжать чисто голосовой материал (лекции, например), то здесь можно использовать сверхнизкие битрейты, даже ниже 64 Кбит/с, поскольку в этом случае важно не само качество звучания, а лишь разборчивость речи при воспроизведении. Кодеки Ogg Vorbis и MusePack дают в среднем заметно лучшие результаты кодирования на средних и высоких битрейтах по сравнению с MP3. Это утверждение справедливо для битрейтов 160 Кбит/с и выше. Кодек MPEG -2/4 AAC является продолжением MP3 и выигрывает у последнего на всех битрейтах. Но на сегодняшний день, несмотря на все ухищрения конкурентов, MP3 вот уже который год упорно держит свои позиции по соотношению размер/качество. Остаётся упомянуть, что существует три режима сжатия потоковых данных: • CBR (Constant bitrate) – с постоянным битрейтом, не меняющимся, одинаковым для всего потока. Задаётся точный размер выходного файла. Минусом такого типа кодирования являются громоздкие объёмы полученных данных, которые нерационально используют дисковое пространство. • VBR (Variable bitrate) – с переменным битрейтом. Каждый фрагмент сжимается с разным количеством используемых для хранения данных. Выбор битрейта, оптимально подходящего для кодирования данного фрагмента, осуществляется самим кодером путем анализа сложности сигнала в каждом отдельном фрагменте. Напрямую зависит от информативной ёмкости предоставленной информации (то есть, к примеру, битрейт тишины будет ниже, чем битрейт какого-либо звука). Основным минусом является то, что невозможно предугадать будущий размер кодируемого файла. • ABR (Average bitrate) – с усреднённым битрейтом, что, по сути, является гибридом постоянного и переменного битрейтов: битрейт задаётся пользователем, но при этом кодирование производится в режиме переменного битрейта с сохранением неизменности его усредненного значения. Единственным минусом такого вида кодирования является то, что выходной файл будет иметь ухудшенное качество (однако лучше, чем CBR и хуже чем VBR). Используя такой тип кодирования, пользователь может выбирать как битрейт файла, так и его будущий размер – это основной плюс. Таким образом, кодирование в режимах VBR и ABR является намного более гибким и, чаще всего, выгодным и качественным, нежели в режиме CBR. __________________________________________________ Ну и, подводя черту всему вышесказанному, хочется привести строчку из песни... "Думайте сами, решайте сами - иметь или не иметь!" то есть... жать или не жать. А если жать - то как и чем... вот в чём вопрос

19.11.2016, 23:06	#4
Vachek ВИП Форумчанин Регистрация: 15.04.2008 Сообщения: 1,391 Репутация: 902	Разрядность преобразования аналогового сигнала Разрядность преобразования, наряду с частотой дискретизации, другой важный параметр оцифровки звука. Он определяет точность замера мгновенной величины сигнала. Сигнал измеряется с шагом, соответствующим одному интервалу из максимального количества интервалов, на которые условно делится сигнал при измерении. Следовательно, точность преобразования составляет + 1 интервал. Обычно применяют 8-ми, 16-ти и 20-ти - битные преобразования. Максимально возможная разрядность преобразования определяется звуковой картой, а именно АЦП, с помощью которого оцифровывают сигнал. Например, при преобразовании входного сигнала с максимальным значением 100 % 8-битным преобразователем погрешность сигнала будет составлять 100 / 2 в 8-й степени = (+,-) 0,4 %, а для 16-битного преобразования 100 / 2 в 16-й степени = (+,-) 0,0015 %. Т.е., чем выше разрядность преобразования, тем точнее повторяется форма исходного сигнала. Естественно, как при увеличении частоты дискретизации, так и при увеличении разрядности преобразования геометрически увеличивается объем конечного файла. В качестве разумного компромиcса стандартными значениями оцифровки звука, как было указано выше, выбраны: частота дискретизации - 44,1 кГц; разрядность преобразования (квантования) - 16 бит.

Опции темы	Поиск в этой теме
Версия для печати Отправить на email	Поиск в этой теме: Расширенный поиск

Здесь присутствуют: 2 (пользователей - 0 , гостей - 2)