各種音頻編碼方式的比對

一. 各種音頻編碼方式的比對

PCM編碼(原始數字音頻信号流)

類型：Audio

制定者：ITU-T

所需頻寬：1411.2 Kbps

特性：音源資訊完整，但備援度過大

優點：音源資訊儲存完整,音質好

缺點：資訊量大，體積大，備援度過大

應用領域：voip

版稅方式：Free

備注：在計算機應用中，能夠達到最高保真水準的就是PCM編碼，被廣泛用于素材儲存及音樂欣賞，CD、DVD以及我們常見的WAV檔案中均有應用。是以，PCM約定俗成了無損編碼，因為PCM代表了數字音頻中最佳的保真水準，并不意味着PCM就能夠確定信号絕對保真，PCM也隻能做到最大程度的無限接近。要算一個PCM音頻流的碼率是一件很輕松的事情，采樣率值×采樣大小值×聲道數bps。一個采樣率為44.1KHz，采樣大小為16bit，雙聲道的 PCM編碼的WAV檔案，它的資料速率則為 44.1K×16×2 =1411.2Kbps。我們常見的Audio CD就采用了PCM編碼，一張CD光牒的容量隻能容納72分鐘的音樂資訊。

WMA(Windows Media Audio)

制定者：微軟公司

所需頻寬：320～112kbps（壓縮10～12倍）

特性：當Bitrate小于128K時，WMA幾乎在同級别的所有有損編碼格式中表現

得最出色，但似乎128k是WMA一個檻，當Bitrate再往上提升時，不會有太多的音質改變。

優點：當Bitrate小于128K時，WMA最為出色且編碼後得到的音頻檔案很小。

缺點：當Bitrate大于128K時，WMA音質損失過大。WMA标準不開放，由微軟掌。

握應用領域：voip

版稅方式：按個收取

備注：WMA的全稱是Windows Media Audio，它是微軟公司推出的與MP3格式齊名的一種新的音頻格式。由于WMA在壓縮比和音質方面都超過了MP3，更是遠勝于RA(Real Audio)，即使在較低的采樣頻率下也能産生較好的音質，再加上WMA有微軟的Windows Media Player做其強大的後盾，是以一經推出就赢得一片喝彩。

ADPCM( 自适應差分PCM)

所需頻寬：32Kbps

特性：ADPCM(adaptive difference pulse code modulation)綜合了APCM的自

适應特性和DPCM系統的差分特性，是一種性能比較好的波形編碼。

它的核心想法是：

①利用自适應的思想改變量化階的大小，即使用小的量化階(step-size)去編碼

小的內插補點，使用大的量化階去編碼大的內插補點；

②使用過去的樣本值估算下一個輸入樣本的預測值，使實際樣本值和預測值之間的內插補點總是最小。

優點：算法複雜度低，壓縮比小（CD音質>400kbps），編解碼延時最短（相對

其它技術）

缺點：聲音品質一般

備注：ADPCM (ADPCM Adaptive Differential Pulse Code Modulation), 是一種針對16bit (或者更高?) 聲音波形資料的一種有損壓縮算法, 它将聲音流中每次采樣的 16bit 資料以 4bit 存儲, 是以壓縮比 1:4而壓縮/解壓縮算法非常的簡單, 是以是一種低空間消耗,高品質聲音獲得的好途徑。

LPC(Linear Predictive Coding，線性預測編碼)

制定者：

所需頻寬：2Kbps-4.8Kbps

特性：壓縮比大，計算量大，音質不高，廉價

優點：壓縮比大,廉價

缺點：計算量大，語音品質不是很好，自然度較低

備注：參數編碼又稱為聲源編碼，是将信源信号在頻率域或其它正交變換域提

取特征參數，并将其變換成數字代碼進行傳輸。譯碼為其反過程，将收到的數字序列經變換恢複特征參量，再根據特征參量重建語音信号。具體說，參數編碼是通過對語音信号特征參數的提取和編碼，力圖使重建語音信号具有盡可能高的準确性，但重建信号的波形同原語音信号的波形可能會有相當大的差别。如：線性預測編碼（LPC）及其它各種改進型都屬于參數編碼。該編碼比特率可壓縮到2Kbit/s- 4.8Kbit/s，甚至更低，但語音品質隻能達到中等，特别是自然度較低。

CELP(Code Excited Linear Prediction碼激勵線性預測編碼)

制定者：歐洲通信标準協會（ETSI）

所需頻寬：4～16Kbps的速率

特性：

改善語音的品質：

①對誤差信号進行感覺權重，利用人類聽覺的掩蔽特性來提高語音的主觀品質；

②用分數延遲改進基音預測，使濁音的表達更為準确，尤其改善了女性語音的品質；

③使用修正的MSPE準則來尋找“最佳”的延遲，使得基音周期延遲的外形更

備注：參數編碼又稱為聲源編碼，是将信源信号在頻率域或其它正交變換域提取特征參數，并将其變換成數字代碼進行傳輸。譯碼為其反過程，将收到的數字序列經變換恢複特征參量，再根據特征參量重建語音信号。具體說，參數編碼是通過對語音信号特征參數的提取和編碼，力圖使重建語音信号具有盡可能高的準确性，但重建信号的波形同原語音信号的波形可能會有相當大的差别。如：線性預測編碼（LPC）及其它各種改進型都屬于參數編碼。該編碼比特率可壓縮到2Kbit/s- 4.8Kbit/s，甚至更低，但語音品質隻能達到中等，特别是自然度較低。

③使用修正的MSPE準則來尋找“最佳”的延遲，使得基音周期延遲的外形更為平滑

④根據長時預測的效率，調整随機激勵矢量的大小，提高語音的主觀品質；

⑤使用基于信道錯誤率估計的自适應平滑器，在信道誤碼率較高的情況下也能

合成自然度較高的語音。

結論：

① CELP算法在低速率編碼環境下可以得到令人滿意的壓縮效果；

②使用快速算法，可以有效地降低CELP算法的複雜度，使它完全可以實時地實

現；

③CELP可以成功地對各種不同類型的語音信号進行編碼，這種适應性對于真實

環境，尤其是背景噪聲存在時更為重要。

優點：用很低的帶寬提供了較清晰的語音

缺點：-

備注：1999年歐洲通信标準協會（ETSI）推出了基于碼激勵線性預測編碼（CELP）

的第三代移動通信語音編碼标準自适應多速率語音編碼器（AMR），其中最低速率為4.75kb/s，達到通信品質。

CELP碼激勵線性預測編碼是Code Excited Linear Prediction的縮寫。CEL是近10年來最成功的語音編碼算法。CELP語音編碼算法用線性預測提取聲道參數，用一個包含許多典型的激勵矢量的碼本作為激勵參數，每次編碼時都在這個碼本中搜尋一個最佳的激勵矢量，這個激勵矢量的編碼值就是這個序列的碼本中的序号。CELP已經被許多語音編碼标準所采用，美國聯邦标準FS1016就是采用CELP的編碼方法，主要用于高品質的窄帶語音保密通信。CELP(Code-Excited Linear Prediction) 這是一個簡化的 LPC 算法，以其低比特率著稱(4800-9600Kbps)，具有很清晰的語音品質和很高的背景噪音免疫性。CELP是一種在中低速率上廣泛使用的語音壓縮編碼方案。

MPEG-1 audio layer 1

制定者：MPEG

所需頻寬：384kbps（壓縮4倍）

特性：編碼簡單，用于數字盒式錄音錄音帶，2聲道，VCD中使用的音頻壓縮方案就是MPEG-1Ⅰ。

優點：壓縮方式相對時域壓縮技術而言要複雜得多，同時編碼效率、聲音品質也

大幅提高，編碼延時相應增加。可以達到“完全透明”的聲音品質（EBU

音質标準）

缺點：頻寬要求較高

備注：MPEG-1聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際标準，

它分為三個層次：

--層1(Layer 1)：編碼簡單，用于數字盒式錄音錄音帶

--層2(Layer 2)：算法複雜度中等，用于數字音頻廣播(DAB)和VCD等

--層3(Layer 3)：編碼複雜，用于網際網路上的高品質聲音的傳輸，如MP3音樂

壓縮10倍

MUSICAM(MPEG-1 audio layer 2,即MP2)

所需頻寬：256～192kbps（壓縮6～8倍）

特性：算法複雜度中等，用于數字音頻廣播(DAB)和VCD等，2聲道，而MUSICAM由于其适當的複雜程度和優秀的聲音品質，在數字演播室、DAB、DVB等數位元組目的制作、交換、存儲、傳送中得到廣泛應用。

優點：壓縮方式相對時域壓縮技術而言要複雜得多，同時編碼效率、聲音品質也大幅提高，編碼延時相應增加。可以達到“完全透明”的聲音品質（EBU音質标準）

缺點：

備注：MPEG-2聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際标準，

壓縮10倍

MP3(MPEG-1 audio layer 3)

所需頻寬：128～112kbps（壓縮10～12倍）

特性：編碼複雜，用于網際網路上的高品質聲音的傳輸，如MP3音樂壓縮10倍，2聲道。MP3是在綜合MUSICAM和ASPEC的優點的基礎上提出的混合壓縮技術，在當時的技術條件下，MP3的複雜度顯得相對較高，編碼不利于實時，但由于MP3在低碼率條件下高水準的聲音品質，使得它成為軟解壓及網絡廣播的寵兒。

優點：壓縮比高，适合用于網際網路上的傳播

缺點：MP3在128KBitrate及以下時，會出現明顯的高頻丢失

備注：MPEG-3聲音壓縮編碼是國際上第一個高保真聲音資料壓縮的國際标準，

壓縮10倍

MPEG-2 audio layer

所需頻寬：與MPEG-1層1，層2，層3相同

特性：MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器，層1、層2和層3的結構也相同，但它能支援5.1聲道和7.1聲道的環繞立體聲。

優點：支援5.1聲道和7.1聲道的環繞立體聲

備注：MPEG-2的聲音壓縮編碼采用與MPEG-1聲音相同的編譯碼器，層1、層2 和層3的結構也相同，但它能支援5.1聲道和7.1聲道的環繞立體聲。

AAC(Advanced Audio Coding ，先進音頻編碼)

所需頻寬：96-128 kbps

特性：AAC可以支援1到48路之間任意數目的音頻聲道組合、包括15路低頻效

果聲道、配音/多語音聲道，以及15路資料。它可同時傳送16套節目，每套節目的音頻及資料結構可任意規定。 AAC主要可能的應用範圍集中在網際網路網絡傳播、數字音頻廣播，包括衛星直播和數字AM、以及數字電視及影院系統等方面。AAC使用了一種非常靈活的熵編碼核心去傳輸編碼頻譜資料。具有48個主要音頻通道16 個低頻增強通道，16 個內建資料流, 16 個配音，16 種編排。優點：支援多種音頻聲道組合，提供優質的音質。

版稅方式：一次性收費

備注：AAC于1997年形成國際标準ISO 13818-7。先進音頻編碼（Advanced

Audio Coding--AAC）開發成功，成為繼MPEG-2音頻标準（ISO/IEC13818-3）之後的新一代音頻壓縮标準。在MPEG-2制訂的早期，本來是想将其音頻編碼部分保持與MPEG-1相容的。但後來為了适應演播電視的要求而将其定義成為一個可以獲得更高品質的多聲道音頻标準。理所當

然地，這個标準是不相容MPEG-1的，是以被稱為MPEG-2AAC。換句話說，從表面上看，要制作和播放AAC，都需要使用與MP3完全不同的工具。 HR

類型：udio

制定者：飛利浦

所需頻寬：8Kbps

特性：以增加GSM網絡容量為目的,但是會損害語音品質;由于現在網絡頻率緊缺,

一些大的營運商已經在大城市密集地帶開通此方式以增加容量。

優點：系統容量大

缺點：語音品質差

應用領域：GSM

版稅方式：按個收費

備注：HR半速率,是一種GSM語音編碼方式。

所需頻寬：13Kbps

特性：是一般的GSM手機的通信編碼方式,可以獲得達到4.1左右Qos的語音通

信品質(國際電聯規定語音通信品質Qos滿分為5)

優點：語音品質得到了提高

缺點：系統容量降低

備注：FR全速率，是一種GSM語音編碼方式

EFR

特性：用于GSM手機基于全速率13Kbps的語音編碼和發送,可以獲得更好更清晰

的語音品質(接近Qos4.7)需要網絡服務商開通此項網絡功能，手機才能配合實作。

優點：音質好

缺點：需要網絡服務商開通此項網絡功能，且系統容量降低

備注：EFR增強型全速率,一種GSM網絡語音的編碼方式。

GSM-AMR(Adaptive Multi-Rate)

所需頻寬：8Kbps(4.75 Kbps~12.2 Kbps)

特性：可以對語音進行替換和消音，平滑噪音，支援間斷式傳輸，對語音進行

動态偵查。能在各種網絡條件下提供優質的語音效果。

優點：音質出色。

備注：GSM-ASM是一種廣泛使用在GPRS和W-CDMA網絡上的音頻标準。在規範ETSI GSM06.90中對GSM-AMR進行了定義。AMR語音編碼是GSM2+和WCDMA的預設編碼标準，是第三代無線通訊系統的語音編碼标準。GSM-AMR标準基于ACELP（代數激勵線性預測）編碼。它能在廣泛的傳輸條件下提供高品質的語音效果。

EVRC(Enhanced Variable Rate Coder，增強型可變速率編碼器)

制定者：美國Qualcomm通信公司(即高通)

所需頻寬：8Kbps或13Kbps

特性：支援三種碼率（9.6 Kbps, 4.8 Kbps 和 1.2 Kbps），噪聲抑制，郵件過

濾。能在各種網絡條件下提供優質的語音效果。

優點：音質出色

應用領域：CDMA

備注：EVRC編碼廣泛使用于CDMA網絡。EVRC标準遵循規範TIA IS-127的内容。EVRC編碼基于RCELP

（松弛碼激勵線性預測）标準。該編碼可以以Rate 1（171bits/packet），Rate1/2

（80bits/packet）或是Rate1/8（16bits/packet）的容量進行操作。在要求下，它也能産生空包（0bits/packet）。

QCELP(QualComm Code Excited Linear Predictive，受激線性預測編碼)

制定者：美國Qualcomm通信公司(即高通) 所需頻寬：8k的語音編碼算法(可工作于4/4.8/8/9.6Kbps等固定速率上，而且可變速率地工作于800Kbps～9600Kbps之間)

特性：使用适當的門限值來決定所需速率。QCELP是一種8k的語音編碼算法(可

以在8k的速率下提供接近13k的話音壓縮品質)。這是一種可變速率話音編

碼，根據人的說話特性（大家應該能夠體會我們日常的溝通和交流時并不是一直保持某種恒定的方式講話，有間斷、有不同的聲音頻率等都是人的自然表達）而采取的一種優化技術。

優點：話音清晰、背景噪聲小，系統容量大

缺點：不是Free

版稅方式：每年支付一筆使用權費用

備注：QCELP，即Qualcomm Code Excited Linear Predictive（Qualcomm受激線性預測編碼）。美國Qualcomm通信公司的專利語音編碼算法，是北美第二代數字行動電話（CDMA）的語音編碼标準（IS95）。這種算法不僅可工作于4/4.8/8/9.6kbit／s等固定速率上，而且可變速率地工作于 800bit／s～9600／s

之間。QCELP算法被認為是到目前為止效率最高的一種算法，它的主要特點之一，是使用适當的門限值來決定所需速率。門限值随背景噪聲電平變化而變化，這樣就抑制了背景噪聲，使得即使在喧鬧的環境中，也能得到良好的

話音品質，CDMA8Kbit/s的話音近似GSM 13Mbit/s的話音。CDMA采QCELP

編碼等一系列技術，具有話音清晰、背景噪聲小等優勢，其性能明顯優于其他無線移動通信系統，語音品質可以與有線電話媲美。無線輻射低。

本文轉自 fanxiaojun 51CTO部落格，原文連結：http://blog.51cto.com/2343338/1289746，如需轉載請自行聯系原作者

各種音頻編碼方式的比對

繼續閱讀

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

windows不能在本地計算機上運作oracleDbConsoleorcl

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

Windows下VS開發環境環境安裝工程項目設定關于Debug和Release的提示

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

Windows下配置Apache的SSL服務

Mac｜Windows系統本地照片自動上傳到伺服器

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希