天天看點

MPEG4視訊壓縮編碼技術詳解

MPEG全稱是Moving Pictures Experts Group,它是“動态圖象專家組”的英文縮寫,該專家組成立于1988年,緻力于運動圖像及其伴音的壓縮編碼标準化工作,原先他們打算開發MPEG1、MPEG2、MPEG3和MPEG4四個版本,以适用于不同帶寬和數字影像品質的要求。

目前,MPEG1技術被廣泛的應用于VCD,而MPEG2标準則用于廣播電視和DVD等。MPEG3最初是為HDTV開發的編碼和壓縮标準,但由于MPEG2的出色性能表現, MPEG3隻能是死于襁褓了。而我們今天要談論的主角——MPEG4于1999年初正式成為國際标準。它是一個适用于低傳輸速率應用的方案。與MPEG1和MPEG2相比,MPEG4更加注重多媒體系統的互動性和靈活性。下面就讓我們一起進入多彩的MPEG4世界。

MPEG4的技術特點

MPEG1、MPEG2技術當初制定時,它們定位的标準均為高層媒體表示與結構,但随着計算機軟體及網絡技術的快速發展,MPEG1.MPEG2技術的弊端就顯示出來了:互動性及靈活性較低,壓縮的多媒體檔案體積過于龐大,難以實作網絡的實時傳播。而MPEG4技術的标準是對運動圖像中的内容進行編碼,其具體的編碼對象就是圖像中的音頻和視訊,術語稱為“AV對象”,而連續的AV對象組合在一起又可以形成AV場景。是以,MPEG4标準就是圍繞着AV對象的編碼、存儲、傳輸群組合而制定的,高效率地編碼、組織、存儲、傳輸AV對象是MPEG4标準的基本内容。

在視訊編碼方面,MPEG4支援對自然和合成的視覺對象的編碼。(合成的視覺對象包括2D、3D動畫和人面部表情動畫等)。在音頻編碼上,MPEG4可以在一組編碼工具支援下,對語音、音樂等自然聲音對象和具有回響、空間方位感的合成聲音對象進行音頻編碼。

由于MPEG4隻處理圖像幀與幀之間有差異的元素,而舍棄相同的元素,是以大大減少了合成多媒體檔案的體積。應用MPEG4技術的影音檔案最顯著特點就是壓縮率高且成像清晰,一般來說,一小時的影像可以被壓縮為350M左右的資料,而一部高清晰度的DVD電影, 可以壓縮成兩張甚至一張650M CD光碟來存儲。對廣大的“平民”計算機使用者來說, 這就意味着, 您不需要購置 DVD-ROM就可以欣賞近似DVD品質的高品質影像。而且采用MPEG4編碼技術的影片,對機器硬體配置的要求非常之低,300MHZ 以上CPU,64M的記憶體和一個 8M顯存的顯示卡就可以流暢的播放。在播放軟體方面,它要求也非常寬松,你隻需要安裝一個 500K左右的 MPEG4 編碼驅動後,用 WINDOWS 自帶的媒體播放器就可以流暢的播放了(下面我們會具體講到)。

視訊編碼研究與MPEG标準演進

人類擷取的資訊中70%來自于視覺,視訊資訊在多媒體資訊中占有重要地位;同時視訊資料備援度最大,經壓縮處理後的視訊品質高低是決定多媒體服務品質的關鍵因素。是以數字視訊技術是多媒體應用的核心技術,對視訊編碼的研究已成為資訊技術領域的熱門話題。

視訊編碼的研究課題主要有資料壓縮比、壓縮/解壓速度及快速實作算法三方面内容。以壓縮/解壓後資料與壓縮前原始資料是否完全一緻作為衡量标準,可将資料壓縮劃分為無失真壓縮(即可逆壓縮)和有失真壓縮(即不可逆壓縮)兩類。

傳統壓縮編碼建立在仙農資訊論基礎之上的,以經典集合論為工具,用機率統計模型來描述信源,其壓縮思想基于資料統計,是以隻能去除資料備援,屬于低層壓縮編碼的範疇。

伴随着視訊編碼相關學科及新興學科的迅速發展,新一代資料壓縮技術不斷誕生并日益成熟,其編碼思想由基于像素和像素塊轉變為基于内容 (content-based)。它突破了仙農資訊論架構的束縛,充分考慮了人眼視覺特性及信源特性,通過去除内容備援來實作資料壓縮,可分為基于對象(object-based)和基于語義(semantics-based)兩種,前者屬于中層壓縮編碼,後者屬于高層壓縮編碼。

與此同時,視訊編碼相關标準的制定也日臻完善。視訊編碼标準主要由ITU-T和ISO/IEC開發。ITU-T釋出的視訊标準有H.261、 H.262、 H.263、 H.263+、H.263++,ISO/IEC公布的MPEG系列标準有MPEG-1、MPEG-2 、MPEG-4 和MPEG-7,并且計劃公布MPEG-21。

MPEG即Moving Picture Expert Group(運動圖像專家組),它是專門從事制定多媒體視音頻壓縮編碼标準的國際組織。MPEG系列标準已成為國際上影響最大的多媒體技術标準,其中MPEG-1和MPEG-2是采用以仙農資訊論為基礎的預測編碼、變換編碼、熵編碼及運動補償等第一代資料壓縮編碼技術;MPEG-4(ISO/IEC 14496)則是基于第二代壓縮編碼技術制定的國際标準,它以視聽媒體對象為基本單元,采用基于内容的壓縮編碼,以實作數字視音頻、圖形合成應用及互動式多媒體的內建。MPEG系列标準對VCD、DVD等視聽消費電子及數字電視和高清晰度電視(DTV&&HDTV)、多媒體通信等資訊産業的發展産生了巨大而深遠的影響。

MPEG-4視訊編碼核心思想及關鍵技術

核心思想

在MPEG-4制定之前,MPEG-1、MPEG-2、H.261、H.263都是采用第一代壓縮編碼技術,着眼于圖像信号的統計特性來設計編碼器,屬于波形編碼的範疇。第一代壓縮編碼方案把視訊序列按時間先後分為一系列幀,每一幀圖像又分成宏塊以進行運動補償和編碼,這種編碼方案存在以下缺陷:

· 将圖像固定地分成相同大小的塊,在高壓縮比的情況下會出現嚴重的塊效應,即馬賽克效應;

· 不能對圖像内容進行通路、編輯和回放等*作;

· 未充分利用人類視覺系統(HVS,Human Visual System)的特性。

MPEG-4則代表了基于模型/對象的第二代壓縮編碼技術,它充分利用了人眼視覺特性,抓住了圖像資訊傳輸的本質,從輪廓、紋理思路出發,支援基于視覺内容的互動功能,這适應了多媒體資訊的應用由播放型轉向基于内容的通路、檢索及*作的發展趨勢。

AV對象(AVO,Audio Visual Object)是MPEG-4為支援基于内容編碼而提出的重要概念。對象是指在一個場景中能夠通路和*縱的實體,對象的劃分可根據其獨特的紋理、運動、形狀、模型和高層語義為依據。在MPEG-4中所見的視音頻已不再是過去MPEG-1、MPEG-2中圖像幀的概念,而是一個個視聽場景(AV場景),這些不同的AV場景由不同的AV對象組成。AV對象是聽覺、視覺、或者視聽内容的表示單元,其基本機關是原始AV對象,它可以是自然的或合成的聲音、圖像。原始AV對象具有高效編碼、高效存儲與傳輸以及可互動*作的特性,它又可進一步組成複合AV對象。是以MPEG-4标準的基本内容就是對AV對象進行高效編碼、組織、存儲與傳輸。AV對象的提出,使多媒體通信具有高度互動及高效編碼的能力,AV對象編碼就是MPEG-4的核心編碼技術。

MPEG-4不僅可提供高壓縮率,同時也可實作更好的多媒體内容互動性及全方位的存取性,它采用開放的編碼系統,可随時加入新的編碼算法子產品,同時也可根據不同應用需求現場配置解碼器,以支援多種多媒體應用。

MPEG-4 采用了新一代視訊編碼技術,它在視訊編碼發展史上第一次把編碼對象從圖像幀拓展到具有實際意義的任意形狀視訊對象,進而實作了從基于像素的傳統編碼向基于對象和内容的現代編碼的轉變,因而引領着新一代智能圖像編碼的發展潮流。

關鍵技術

MPEG-4除采用第一代視訊編碼的核心技術,如變換編碼、運動估計與運動補償、量化、熵編碼外,還提出了一些新的有創見性的關鍵技術,并在第一代視訊編碼技術基礎上進行了卓有成效的完善和改進。下面重點介紹其中的一些關鍵技術。

A. 視訊對象提取技術

MPEG-4實作基于内容互動的首要任務就是把視訊/圖像分割成不同對象或者把運動對象從背景中分離出來,然後針對不同對象采用相應編碼方法,以實作高效壓縮。是以視訊對象提取即視訊對象分割,是MPEG-4視訊編碼的關鍵技術,也是新一代視訊編碼的研究熱點和難點。

視訊對象分割涉及對視訊内容的分析和了解,這與人工智能、圖像了解、模式識别和神經網絡等學科有密切聯系。目前人工智能的發展還不夠完善,計算機還不具有觀察、識别、了解圖像的能力;同時關于計算機視覺的研究也表明要實作正确的圖像分割需要在更高層次上對視訊内容進行了解。是以,盡管MPEG-4 架構已經制定,但至今仍沒有通用的有效方法去根本解決視訊對象分割問題,視訊對象分割被認為是一個具有挑戰性的難題,基于語義的分割則更加困難。

目前進行視訊對象分割的一般步驟是:先對原始視訊/圖像資料進行簡化以利于分割,這可通過低通濾波、中值濾波、形态濾波來完成;然後對視訊/圖像資料進行特征提取,可以是顔色、紋理、運動、幀差、位移幀差乃至語義等特征;再基于某種均勻性标準來确定分割決策,根據所提取特征将視訊資料歸類;最後是進行相關後處理,以實作濾除噪聲及準确提取邊界。

在視訊分割中基于數學形态理論的分水嶺(watershed)算法被廣泛使用,它又稱水線算法,其基本過程是連續腐蝕二值圖像,由圖像簡化、标記提取、決策、後處理四個階段構成。分水嶺算法具有運算簡單、性能優良,能夠較好提取運動對象輪廓、準确得到運動物體邊緣的優點。但分割時需要梯度資訊,對噪聲較敏感,且未利用幀間資訊,通常會産生圖像過度分割。

B. VOP視訊編碼技術

視訊對象平面(VOP,Video Object Plane)是視訊對象(VO)在某一時刻的采樣,VOP是MPEG-4視訊編碼的核心概念。MPEG-4在編碼過程中針對不同VO采用不同的編碼政策,即對前景VO的壓縮編碼盡可能保留細節和平滑;對背景VO則采用高壓縮率的編碼政策,甚至不予傳輸而在解碼端由其他背景拼接而成。這種基于對象的視訊編碼不僅克服了第一代視訊編碼中高壓縮率編碼所産生的方塊效應,而且使使用者可與場景互動,進而既提高了壓縮比,又實作了基于内容的互動,為視訊編碼提供了廣闊的發展空間。

MPEG-4支援任意形狀圖像與視訊的編解碼。對于任意形狀視訊對象。對于極低比特率實時應用,如可視電話、會議電視,MPEG-4則采用VLBV(Very Low Bit-rate Video,極低比特率視訊)核進行編碼。

傳統的矩形圖在MPEG-4中被看作是VO的一種特例,這正展現了傳統編碼與基于内容編碼在MPEG-4中的統一。VO概念的引入,更加符合人腦對視覺資訊的處理方式,并使視訊信号的處理方式從數字化進展到智能化,進而提高了視訊信号的互動性和靈活性,使得更廣泛的視訊應用及更多的内容互動成為可能。是以VOP視訊編碼技術被譽為視訊信号處理技術從數字化進入智能化的初步探索。

C. 視訊編碼可分級性技術

随着網際網路業務的巨大增長,在速率起伏很大的IP(Internet Protocol)網絡及具有不同傳輸特性的異構網絡上進行視訊傳輸的要求和應用越來越多。在這種背景下,視訊分級編碼的重要性日益突出,其應用非常廣泛,且具有很高的理論研究及實際應用價值,是以受到人們的極大關注。

視訊編碼的可分級性(scalability)是指碼率的可調整性,即視訊資料隻壓縮一次,卻能以多個幀率、空間分辨率或視訊品質進行解碼,進而可支援多種類型使用者的各種不同應用要求。

MPEG-4通過視訊對象層(VOL,Video Object Layer)資料結構來實作分級編碼。MPEG-4提供了兩種基本分級工具,即時域分級(Temporal Scalability)和空域分級(Spatial Scalability),此外還支援時域和空域的混合分級。每一種分級編碼都至少有兩層VOL,低層稱為基本層,高層稱為增強層。基本層提供了視訊序列的基本資訊,增強層提供了視訊序列更高的分辨率和細節。

在随後增補的視訊流應用架構中,MPEG-4提出了FGS(Fine Granularity Scalable,精細可伸縮性)視訊編碼算法以及PFGS(Progressive Fine Granularity Scalable,漸進精細可伸縮性)視訊編碼算法。

FGS編碼實作簡單,可在編碼速率、顯示分辨率、内容、解碼複雜度等方面提供靈活的自适應和可擴充性,且具有很強的帶寬自适應能力和抗誤碼性能。但還存在編碼效率低于非可擴充編碼及接收端視訊品質非最優兩個不足。

PFGS則是為改善FGS編碼效率而提出的視訊編碼算法,其基本思想是在增強層圖像編碼時使用前一幀重建的某個增強層圖像為參考進行運動補償,以使運動補償更加有效,進而提高編碼效率。

D. 運動估計與運動補償技術

MPEG-4采用I-VOP、P-VOP、B-VOP三種幀格式來表征不同的運動補償類型。它采用了H.263中的半像素搜尋(half pixel searching)技術和重疊運動補償(overlapped motion compensation)技術,同時又引入重複填充(repetitive padding)技術和修改的塊(多邊形)比對(modified block (polygon)matching)技術以支援任意形狀的VOP區域。

此外,為提高運動估計算法精度,MPEG-4采用了MVFAST(Motion Vector Field Adaptive Search Technique)和改進的PMVFAST(Predictive MVFAST)方法用于運動估計。對于全局運動估計,則采用了基于特征的快速頑健的FFRGMET(Feature-based Fast and Robust Global Motion Estimation Technique)方法。

在MPEG-4視訊編碼中,運動估計相當耗時,對編碼的實時性影響很大。是以這裡特别強調快速算法。運動估計方法主要有像素遞歸法和塊比對法兩大類,前者複雜度很高,實際中應用較少,後者則在H.263和MPEG中廣泛采用。在塊比對法中,重點研究塊比對準則及搜尋方法。目前有三種常用的比對準則:

(1)絕對誤差和(SAD, Sum of Absolute Difference)準則;

(2)均方誤差(MSE, Mean Square Error)準則;

(3)歸一化互相關函數(NCCF, Normalized Cross Correlation Function)準則。

在上述三種準則中,SAD準則具有不需乘法運算、實作簡單友善的優點而使用最多,但應清楚比對準則的選用對比對結果影響不大。

在選取比對準則後就應進行尋找最優比對點的搜尋工作。最簡單、最可靠的方法是全搜尋法(FS, Full Search),但計算量太大,不便于實時實作。是以快速搜尋法應運而生,主要有交叉搜尋法、二維對數法和鑽石搜尋法,其中鑽石搜尋法被MPEG-4校驗模型(VM, Verification Model)所采納,下面詳細介紹。

鑽石搜尋(DS, Diamond Search)法以搜尋模闆形狀而得名,具有簡單、魯棒、高效的特點,是現有性能最優的快速搜尋算法之一。其基本思想是利用搜尋模闆的形狀和大小對運動估計算法速度及精度産生重要影響的特性。在搜尋最優比對點時,選擇小的搜尋模闆可能會陷入局部最優,選擇大的搜尋模闆則可能無法找到最優點。是以DS算法針對視訊圖像中運動矢量的基本規律,選用了兩種形狀大小的搜尋模闆。

· 大鑽石搜尋模闆(LDSP, Large Diamond Search Pattern),包含9個候選位置;

· 小鑽石搜尋模闆(SDSP, Small Diamond Search Pattern),包含5個候選位置。

DS算法搜尋過程如下:開始階段先重複使用大鑽石搜尋模闆,直到最佳比對塊落在大鑽石中心。由于LDSP步長大,因而搜尋範圍廣,可實作粗定位,使搜尋不會陷于局部最小,當粗定位結束後,可認為最優點就在LDSP 周圍8 個點所圍菱形區域中。然後再使用小鑽石搜尋模闆來實作最佳比對塊的準确定位,以不産生較大起伏,進而提高運動估計精度。

此外Sprite視訊編碼技術也在MPEG-4中應用廣泛,作為其核心技術之一。Sprite又稱鑲嵌圖或背景全景圖,是指一個視訊對象在視訊序列中所有出現部分經拼接而成的一幅圖像。利用Sprite可以直接重構該視訊對象或對其進行預測補償編碼。

Sprite視訊編碼可視為一種更為先進的運動估計和補償技術,它能夠克服基于固定分塊的傳統運動估計和補償技術的不足,MPEG-4正是采用了将傳統分塊編碼技術與Sprite編碼技術相結合的政策。

MPEG4的應用領域

憑借着出色的性能,MPEG4技術目前在多媒體傳輸、多媒體存儲等領域得到了廣泛的應用,下面我們就來看看目前在那些領域MPEG4技術得到了大顯伸手的機會。

1、精彩的視訊世界

精彩的視訊世界是MPEG4技術應用最多也是最為廣大朋友所熟悉的的形式。目前它主要以兩種形式出現,一種是DIVX-MPEG4影碟(國内市面上已出現,且D版居多),另一種是網上MPEG4電影。

(1)、我們先來說說DIVX-MPEG4影碟,DIVX視訊編碼技術實際上就是MPEG4壓縮技術,它由微軟MPEG4V3修改而來,使用的是MPEG4壓縮算法,并同時分離視訊和音頻。它的核心部分便是由DivX對DVD音視訊進行壓縮,生成Mpeg4視訊格式檔案(也就是AVI格式)。

小提示:筆者也是經常被朋友所問到:“我看到的MPEG4電影片段明明是avi(擴充名)格式檔案,并且Windows的媒體播放器也與之關聯,但就是無法播放”。其實, MPEG4并沒有确定必須用什麼擴充名,它隻是一種編碼方法而已。使用avi作為擴充名,是一種習慣性的沿用。

在計算機上播放MPEG4影音檔案的方法目前有兩種:第一種是用諸如DivxPlayer等專門的播放軟體來播放;第二種播放方法是安裝MPEG4(Divx)插件後,用Windows自帶的媒體播放機來播放。

(2)、随着網絡技術的不斷發展,網際網路上的視訊流應用也成為了近幾年的熱門話題。目前,在網際網路上比較流行的幾種影像格式包括Quicktime、RealPlay以及微軟的MediaPlayer等。MPEG4技術出現之後,網際網路上又出現了MPEG4格式的電影,不過在觀看前,系統會提示你下載下傳最新的MPEG4解碼軟體。

小提示:大家平時在網上可能經常會看見ASF格式的電影,其實它也是微軟公司開發出的一種可以直接在網上觀看視訊節目的壓縮格式。使用的也是MPEG4的壓縮算法,但因為它是以網上即時觀看電影的視訊流格式存在的,是以它的圖像品質相對要差一些。

2、低比特率下的多媒體通信,

目前,MPEG4技術已經廣泛的應用在如視訊電話、視訊電子郵件、移動通信、電子新聞等多媒體通信領域。由于這些應用對傳輸速率要求較低,一般在4.8~64kbit/s之間,分辨率為176×144左右。是以MPEG4技術完全可以充分的利用網絡帶寬,通過幀重建技術壓縮和傳輸資料,以最少的資料量獲得最佳的圖像品質。

3、實時多媒體監控。

多媒體監控領域原來一直是MPEG1技術擔當重任,但近些年來,它們也是“城頭變換大王旗”了。由于MPEG4壓縮技術原本是一種适用在低帶寬下進行資訊交換的音視訊處理技術,它的特點是可以動态的偵測圖像各個區域變化,基于對象的調整壓縮方法可以獲得比MPEG1更大的壓縮比,使壓縮碼流更低。是以,盡管MPEG4技術一開始并不是專為視訊監控壓縮領域而開發的,但它高清晰度的視訊壓縮,在實時多媒體監控上,無能是存儲量,傳輸的速率,清晰度都比MPEG1具有更大的優勢。

4、基于内容存儲和檢索的多媒體系統。

由于MPEG4在壓縮方法上遠遠優于MPEG1技術,更是MJPEG技術所不能比拟的。 經過專家的測試表明,在相同清晰度對應MPEG1(500Kbits/sec)碼流情況下, MPEG4比MPEG1節省了2/3的硬碟空間,在一般活動場景下也節省近一般的容量。是以無論是從内容存儲量,還是從多媒體檔案的檢索速度來說,MPEG4技術都是多媒體系統應用的不二之選。

5、硬體産品上面的應用

目前,MPEG4技術在硬體産品上也已開始逐漸得到應用。特别是在視訊監控、播放上,這項高清晰度,高壓縮的技術得到了衆多硬體廠商的鐘愛,而市場上支援MPEG4技術的産品也是種類繁多。下面筆者就列舉一些代表性的産品,旨在讓讀者了解MPEG4技術在今天應用範圍之廣。

(1)、錄影機:日本夏普公司推出過應用在網際網路上的數字錄影機VN-EZ1。這台網絡錄影機利用MPEG4格式,可把影像檔案壓縮為ASF(進階流格式),使用者隻要利用微軟公司的MediaPlayer播放程式,就可以直接在電腦上進行播放。

(2)、播放機:飛利浦公司于今年八月份推出了一款支援DivX的DVD播放機DVD737。它可以支援DivX 3.11、4.xx、5.xx等MPEG4标準,而對于新标準的支援則可以通過更新固件來實作。

(3)、數位相機:日本京瓷公司在11月中旬發售其最新款數位相機Finecam L30,這款是采用300萬像素、3倍光學變焦設計的數位相機産品, L30采用了MPEG4格式動态視訊錄制,可以讓動态視訊錄制畫面效果比傳統數位相機更出色。

(4)、手機:在手機領域,MPEG4技術更是得到了廣泛的應用,各大手機廠商也都推出了可拍攝MPEG4動态視訊的手機型号,如西門子ST55、索尼愛立信P900/P908、LG 彩屏G8000等。

(5)、MPEG4數字硬碟:在今年深圳舉行的安防展覽會上,開發數字錄像監控産品的廠家紛紛推出了他們的最新産品,而支援MPEG4的DVR壓縮技術也成為改展會上的亮點。

如北京華青紫博科技推出的“E眼神MPEG4數字視訊王”便是一款基于網絡環境的高清晰數字化監控報警系統。内置多畫面處理器,集現場監控、監聽、多路同時數字錄像與回放等多種功能為一體。

其實,市場上還有許多基于MPEG4技術的硬體産品,筆者這裡就不一一列舉了,不過筆者相信,随着視訊壓縮技術的不斷發展,MPEG4技術的産品會越來越多的出現在我們生活,工作中。

繼續閱讀