天天看點

淺析音視訊知識

1.1 音視訊協定、通訊協定介紹

1.1.1 兩大标準制定組織

這裡的标準,主要指的是音視訊壓縮标準。兩大組織分别是國際标準化組織(ISO)和國際電信聯盟(ITU),相信IT行業的從業者沒聽說過這兩個行業的人很少。

在音視訊壓縮标準方面,mpeg系列的協定是ISO制定的标準,而H系列的協定則是ITU制定的标準。

1.1.2 視訊協定

目前主要的視訊壓縮協定有:H.261、H.263、H.264和mpeg-1、mpeg-2和mpeg-4。第一個視訊壓縮标準是H.261,它的算法現在來看,非常簡單,但是,它的很多視訊壓縮的思想,一直影響到現在最新的壓縮标準H.264。H.264單看名字,感覺是ITU組織制定的,其實它還有一個名字叫mpeg-4 Part 10,翻譯過來叫mpeg-4 第十部分,這是因為H.264是ISO和ITU組織共同制定的,版權共享。其實,一直以來,H系列的标準制定者和mpeg系列的标準制定者基本上就是同一群人,而且,這兩個系列的算法思想基本上都差不多,唯一有一點不同的協定是mpeg-4,它在它的進階profile中提出了小波變換等算法來實作視訊壓縮,從實際發展看,個人感覺不是很成功,采用小波變換的商用codec很少,這可能和這些算法的達不到實時性有關系。

從應用的角度看,mpeg系列在消費類應用更廣些,大家也更熟悉些,我們熟悉的VCD格式視訊主要是mpeg-1,DVD的視訊則是mpeg-2,早期大家看的電影在電腦上存盤檔案格式都是*.mpg,基本上也都是mpeg做的壓縮了。在行業上,國内的監控行業,也是從mpeg-1到mpeg-2,到前兩三年的mpeg-4,再到最近的H.264。而H系列的标準,用得最多的是視訊會議,從H.261到H.263,再到H.263 、H.263 等,再到現在的H.264。

從技術角度說,H系列的協定對網絡的支援更好些,這點mpeg系列要差一些,但是,mpeg它每一代都比H系列同一代的協定要出得晚些,算法也相對更先進些,是以,它用來做存儲協定是很合适的,這也就是為什麼普通消費類産品使用者很少了解到H系列協定的原因。

H.264是兩大組織最新的算法成果,它在算法層面應該說是非常先進了,有人評價,H.264是視訊壓縮技術的一個裡程碑,在可預見的5到10年内,出現新的視訊壓縮協定可能性很小,除非壓縮理論有重大突破。

除了上面說的協定,還有很多公司也有自己的壓縮算法,不過基本上都是不公開的了,他們這些算法也都非常好,不過和開發人員關系倒不是很大了,典型的是微軟的wmv、realplay公司的rm和rmvb等,他們的使用者也很多,而且他們都偏向流媒體應用。

1.1.3 音頻協定

音頻協定也分兩大類,ITU組織的主要是用于視訊會議的G系列協定,包括g.711、g.722、g.723、g.726、g.728、g.729等。這些協定主要有兩大特點,第一是比較關注語音壓縮,畢竟開會主要是要聽人講話;對音樂的壓縮效果可能就不是太好了;第二是壓縮率都比較大,碼率都比較低,典型的g.723支援5.9k/s這樣的碼率,而且語音音質還很不錯。ISO的音頻可能更為人熟知一些,最流行的就是mp3,它的全稱是mpeg-1 Audio layer 3,意思是mpeg-1的音頻第三層;另外,最新的音頻算法被稱為aac(也稱為mp4),它定義在mpeg-2或mpeg-4的音頻部分。他們的特點是音質好,支援多聲道,高采樣精度和采樣頻率,尤其對音樂的壓縮效果比G系列要好太多。當然,這也是因為它們的應用領域側重點不同造成的。

同樣的,很多大公司也有自己的語音壓縮标準,效果也非常好。不過都是他們自己的知識産權和算法,通用市場用的還是少。

1.1.4 上層通訊協定

在視訊會議系統中,目前最流行的有H.323和SIP協定,在流媒體應用中,ISMA rtsp應用得比較多,它屬于開源項目,而很多流媒體産商有自己的流媒體傳輸協定,比如微軟的mms等。

H.323主要用于視訊會議,被稱為協定簇,我們前面提到的H系列視訊壓縮協定和G系列音頻壓縮協定都屬于它的子協定。除了音視訊編×××外;它還定義了各種資料應用,包括T.120、T.84、T.434等;另外還包括H.245控制信道、H.225.0呼叫信令信道以及RAS信道。詳細的H.323的知識,這裡就不深入介紹了。

SIP是由IETF提出來的一個應用控制(信令)協定。正如名字所隐含的--用于發起會話。它可用來建立、修改以及終結多個參與者參加的多媒體會話程序。參與會話的成員可以通過多點傳播方式、單點傳播連網或者兩者結合的形式進行通信。

H.323和SIP分别是通信領域與網際網路兩大陣營推出的建議。 H.323企圖把IP電話當作是衆所周知的傳統電話,隻是傳輸方式發生了改變,由電路交換變成了分組交換。而SIP協定側重于将IP電話作為網際網路上的一個應用,較其實應用(如FTP,E-mail等)增加了信令和QoS的要求,它們支援的業務基本相同,也都利用RTP作為媒體傳輸的協定。但H.323是一個相對複雜的協定。

RTSP主要用于流媒體傳輸,它的英文全稱是real time streaming protocol。典型的應用就是網絡電視的應用,由客戶向伺服器進行點播,如果在監控行業應用的話,建議當使用者進行遠端回放錄像時,可采用RTSP協定。

1.2 音視訊基本概念介紹

1.2.1 視訊的基本概念

RGB和YUV

RGB指的是紅綠藍,應用還是很廣泛的,比如顯示器顯示,BMP檔案格式中的像素值等;而YUV主要指亮度和兩個色差信号,被稱為luminance和chrominance他們的轉化關系可以自己去查一下,我們視訊裡面基本上都是用YUV格式。

YUV格式

YUV檔案格式又分很多種,如果算上存儲格式,就更多了,比如YUV444、YUV422、YUV411、YUV420等等,視訊壓縮用到的是420格式,這是因為人眼對亮度更敏感些,對色度相對要差些。另外要注意幾個英文單詞的意思,比如:packet、planar、interlace、progressive等。

幀率

每秒鐘圖像的重新整理速度。PAL制式的電視,幀率是25幀每秒,NTSC制式的電視幀率是29.97幀每秒。我們常用的電腦也有重新整理率,一般來說,電腦的重新整理率要在75赫茲以上,人眼才不會覺得閃。

隔行掃描(interlace)和逐行掃描(progressive)

一般的電視上都是隔行掃描,而顯示器都是逐行掃描。這裡有一個場的概念,隔行掃描是一幀等于兩場,而逐行掃描則是一幀就是一場。

碼率

它的機關是 bit per second,一般所有描述帶寬的概念,機關都是bit,描述存儲容量的機關一般都是大B,也就是BYTE(位元組)。

分辨率

圖像的分辨率指的是它的像素數,一般用得最多的是CIF,也就是352*288,4cif自然就是指704*576,而D1的分辨率嚴格意義上是720*576,大小來說和4cif差不多了。當然現在還有很多高清的分辨率,這些我不是太了解,大家感興趣可以查一下。另外,國外很多時候,對cif的高度取240,這是因為他們的幀率比我們高(29.97hz),自然,高度要小一些了。

實時與非實時

主要用來形容編碼器,它含有兩個意思,一個是要保證幀率,也就是每秒25幀,另一個是“live”的意思,意味着直播,所謂的“實況轉播”的“實”。 延時

也是形容編碼器的一個重要名額,一般來說,200ms到300ms人的感覺不會很明顯,到了500毫秒的話,還是可以很明顯感覺到的。

音視訊同步

作為視訊會議的應用,一般要求做到所謂的“唇同步”。基本的保證音視訊同步的手段就是時間戳(time stamp)。

複合視訊和S-Video

NTSC和PAL彩色視訊信号是這樣構成的--首先有一個基本的黑白視訊信号,然後在每個水準同步脈沖之後,加入一個顔色脈沖和一個亮度信号。因為彩色信号是由多種資料“疊加”起來的,故稱之為“複合視訊”。S-Video則是一種信号品質更高的視訊接口,它取消了信号疊加的方法,可有效避免一些無謂的品質損失。它的 功能是将RGB三原色和亮度進行分離處理。

NTSC、PAL和SECAM

基帶視訊是一種簡單的模拟信号,由視訊模拟資料和視訊同步資料構成,用于接收端正确地顯示圖像。信号的細節取決于應用的視訊标準或者“制式”--NTSC(美國全國電視标準委員會,National Television Standards Committee)、PAL(逐行倒相,Phase Alternate Line)以及SECAM(順序傳送與存儲彩色電視系統,法國采用的一種電視制式,SEquential Couleur Avec Memoire)。

中國的電視信号一般都是PAL,而美日則是NTSC。這2個制式的幀率,圖像尺寸都有所不同。

線數

我們在買攝像頭的時候,經常會提到一個叫線數的概念,它其實就是分辨率中的高(height)。舉個例子:PAL制式的D1圖像,線數就是576。

亮度、飽和度和對比度

英文名分别是:brightness、saturation和 contrast。這是三個表示圖像的重要名額。

1.2.2 音頻的基本概念

采樣率

音頻的采樣率其實類似視訊的幀率,意思是每秒鐘采樣的次數。G.711的采樣率是8k(人的語音大概就在這個頻率範圍以内),而mp3支援的典型采樣率是 44.1kHz(超過人耳響應頻率的2倍多一點——奈奎斯特定理)。很明顯,mp3壓縮的原始聲音要比g.711好多了。

采樣精度

就是每個采樣進行模數轉換時的量化系數。G.711是8bit采樣精度,而mp3典型的是16bit。

回聲消除

視訊會議應用中的音頻最大問題。回聲産生的原因很複雜,一般認為,在網際網路中的語音傳輸,延時來源有三個:壓縮延遲、分組傳輸延遲和處理延遲。語音壓縮延遲是産生回聲的主要延遲,例如在G.723.1标準中,壓縮一幀(30ms)的最大延遲是37.5ms。分組傳輸延遲也是一個很重要的來源,測試表明,端到端的最大傳輸延遲可達250ms以上。處理延遲是指語音包的封裝時延及其緩沖時延等。

1.3 視訊産品簡介

1.3.1 MP4

這是最近兩年開始流行的新産品,它的定義其實業有些混亂。目前流行的說法是:隻要和視訊沾邊的便攜式播放器,都叫MP4。不過下面的圖更能說明問題。

1.3.2 光端機

一種完成電——光信号轉換的裝置。主要用于模拟遠端視訊監控系統,它可将遠端的攝像頭模拟信号轉換成光信号傳送到監控中心,配合監控中心的DVR使用。

1.3.3 視訊會議MCU

它是視訊會議的核心裝置之一。當參與視訊會議的終端超過2個時,就必須通過MCU來召開會議。

MCU的基本功能是媒體流轉發和混音,并進行會議管理,随着視訊會議的發展,MCU支援的功能也越來越多,比如:混屏、遠端攝像頭控制等功能。

繼續閱讀