第二章 視訊會議系統結構
視訊會議系統是集通信技術、計算機技術、微電子技術于一體的遠端異地通信方式,它将計算機的互動性、通信的分布性、以及電視的真實性有機地結合在一起,具有明顯的優越性,因而成為當今計算機領域的一個研究熱點。
2.1 系統結構
本節從兩個角度來介紹視訊會議系統的整體系統結構,即邏輯系統結構和實體系統結構。事實上,這兩種結構密不可分,前者側重于軟體結構,後者側重于硬體結構,在視訊會議系統中表現為一個有機的統一整體。
2.1.1 邏輯系統結構
從功能上看,完整的視訊會議系統應具有會議管理、協作處理、視訊/音頻處理,多點控制、通信服務等功能子產品,其邏輯結構如圖2-2所示。
會議管理 |
實時音頻 |
實時視訊 |
音/視訊同步 |
視訊音頻處理 |
協作處理 |
共享白闆 |
共享檔案 |
共享應用 |
通信服務 |
多點控制 |
(1)會議管理
完成會議通知,召集任務;初始化會議環境;在會議進行中,協調系統各部分,管理與會者的身份與權力;進行系統各項性能參數的設定和調整。
(2)協作處理
主要提供共享白闆、共享檔案、共享應用等形式的協作方式。其中,共享白闆的作用是實作與會人員的公共顯示和修改視窗,實時傳送修改資訊;内含檔案等資料的傳送功能,完成檔案傳閱任務;具有OLE功能。
(3)視訊/音頻處理程式
完成視訊/音頻資訊的采集、轉化,實時壓縮本地媒體産生的資料,實時解壓縮和播放遠地媒體産生的并經過網絡傳送過來的資料。
(4)通信服務和多點控制
具有網絡管理的功能,能集中處理各種媒體産生的資訊流的排程、傳輸等一系列問題,實作點對點、組廣播、廣播方式等通信方式;完成相應程序的資料的連接配接;保證網絡傳輸的效率,以維護一定的系統性能。
視訊會議系統應具有的特點是:其談話和活動圖像必須是自然的,使用者之間必須共享資訊,必須要具有友好的使用者接口。
2.1.2 實體系統結構
視訊會議系統的實體系統結構如圖2-3所示。
終端系統 |
終端系統 |
終端系統 |
MCU |
MCU |
MCU |
MCU |
通信網絡 |
終端系統 |
終端系統 |
終端系統 |
其中,有以下幾點值得注意:
(1)通信網絡可以是PSTN,LAN,ISDN,Internet,FDDI/ATM等,但由于不同的通信網絡原理及結構差異很大,導緻了視訊會議系統微觀部署結構(包括終端系統的連接配接結構,多點控制裝置(MCU)的配置方案結構等)的差異性。
(2)多點控制裝置MCU(Multipoint Control Unit)并不是必需的。隻有在多個會議場點(Conference Site)進行多點視訊會議時,才設定一台或多台MCU,以進行圖像與語音的配置設定和切換,這是由于視訊與音頻是連續傳遞的資料流,多個信道之間不能直接并聯連接配接,否則來自不同會議場點的視訊和音頻信号将重疊在一起。MCU通常設定在網絡節點處。
(3)終端系統的配置在同一視訊會議系統中并不要求完全一緻;對終端系統(包括軟體和硬體)的要求比較統一,隻需符合一定的國際标準即可。
2.2 終端結構
終端系統實際上代表視訊會議中的本地會議場點,其結構如圖2-4所示,主要包括以下幾部分。
通信網絡信道 |
視訊輸入裝置 |
視訊輸出裝置 |
音頻輸入裝置 |
音頻輸出裝置 |
資訊通信裝置 |
系統控制 |
視訊 編/解碼器 |
音頻 編/解碼器 |
資料協定 |
控制協定 |
多 路 複 用 |
使用者接口和網絡接口 |
(1)視訊輸入/輸出裝置
①視訊輸入裝置
視訊輸入裝置采集的各種視訊信号都須經過視訊輸入口,将視訊信号(模拟或數字)送入視訊編碼器内進行處理(變換、壓縮等)。
視訊輸入裝置包括錄影機及錄像機。錄影機主要有主錄影機、輔助錄影機和圖文錄影機。
其中,主錄影機主要用來攝取發言人的特寫鏡頭,但主錄影機可被控制轉動,這種控制可以是手動的,也可以是自動的。手動方式主要由參加會議人員通過控制器,控制錄影機上、下、左、右轉動以及焦距的調節,也可以控制對方會場的主錄影機的轉動。自動方式涉及到攝像頭方向性的技術問題,可以加入聲學掃描技術,用數字信号處理方法将發言者的聲音疊加起來,形成一個很窄的聲波,再自動調整攝像頭對準本會議場點發言者,如果沒有太大幹擾,反應速度是比較滿意的。
輔助錄影機主要用來攝取會場全景圖像,或不同角度的部分場景鏡頭,或攝取白闆上的内容。輔助錄影機主要由人工操作控制,屬于手動方式。
圖文錄影機一般固定在某一特定位置,用來攝取檔案、圖表等,其焦距已事先調整好。
錄像機可播放事先錄制好的活動和靜止圖像。
小型視訊會議系統一般隻采用主錄影機。
主錄影機鏡頭一般采用25萬像素或30萬像素的分辨率,體積較小,易于安裝。輔助錄影機可以選擇廣角鏡頭、特殊監控鏡頭等。
②視訊輸出裝置
視訊輸出裝置包括螢幕、投影機、電視牆、多畫面、視訊處理器等。螢幕用于顯示接收的圖像;會議人數較多時,可采用投影機或電視牆。為了在螢幕上既可以顯示其他會議場點的圖像,同時又可以顯示本會議場點的畫面,一般采用多視窗系統,每個會議場點的情況在螢幕上隻表現為一個視窗,并且可以允許這種視窗随意放大縮小,而且不失真。
(2)音頻輸入/輸出裝置
音頻輸入/輸出裝置主要包括麥克風(話筒)、揚聲器、調音裝置以及提供語言激勵、多麥克風混合、回聲抑制器等附加的語音裝置。具體會議對音頻裝置的配備情況主要由會議對音頻品質的要求決定。
話筒和揚聲器主要用于與會者的發言和收聽其他會議場點的發言。
調音裝置主要用于調節本會議場點話筒的音色和音量。
(3)視訊編碼解碼器
視訊編碼解碼器(Video Codec)是視訊會議系統的心髒,主要功能有以下幾點:
①将來自本地會議場點視訊輸入裝置的模拟視訊信号數字化後進行壓縮編碼處理,以适應窄帶數字信道的傳送。目前,已有許多數字式攝像頭産品面世,這種攝像頭輸出的信号已經被數字化,視訊編碼解碼器對此數字信号流直接進行壓縮編碼處理。
②将來自遠地會議場點的已壓縮視訊信号解壓縮後,送給相應的視訊輸出裝置。
③可對不同電視制式的視訊信号進行處理,以便不同電視制式的視訊會議系統直接無縫互通,如PAL與NTSC間的互通。
④在多點視訊會議通信的環境下,視訊編碼解碼器應支援MCU進行多點切換控制。
(4)音頻編碼解碼器
在視訊會議系統中,音頻編碼解碼器(Audio Codec)與視訊編碼解碼器具有同等的核心地位,但由于音頻資料量與視訊資料量相比要小得多,是以,音頻編碼解碼器在視訊會議系統設計中并不會成為瓶頸問題。
音頻編碼解碼器功能主要包括兩個方面:
①對來自本地會議場點音頻輸入裝置得模拟信号數字化,以PCM、ADPCM或LDCELP方式進行編碼。這類模拟信号頻率通常為50Hz~3.4kHz或50Hz~7kHz。編碼後的數字音頻信号的速率可為16,48,56,64bps四種。
②對來自遠地會議場點已壓縮的音頻信号解壓縮後,送到相應的音頻輸出裝置。
(5)時延
由于視訊編碼解碼器會引入一定的時延,造成發言人的語言與唇部的動作不協調,其口形與語音相比有一個延遲,是以在音頻編碼器中必須對編碼的音頻信号增加适當的時延,以便使解碼器中的視訊信号和音頻信号同步,即所謂的唇同步問題。
(6)資訊通信裝置
資訊通信裝置是視覺的輔助裝置,可增強視訊通信功能。
資訊通信裝置包括白闆、書寫電話、傳真機等。白闆供本會議場點與會人員與對方會場人員進行讨論問題時寫字畫圖用,通過輔助錄影機的攝取而輸入編碼器,傳送到對端,在對方會場的螢幕上顯示。書寫電話為書本大小的電子寫字闆,供與會人員将要說的話寫在此闆上,變換成電信号後輸入到視訊編碼解碼器,再傳送到對方會場,并顯示在螢幕上。
(7)資料協定
資料協定是所有會議場點之間進行各種資料通信的基礎,它必須支援電子白闆、靜止圖像傳輸、檔案交換及資料庫存取等應用類型。
(8)控制協定和系統控制
控制協定提供各終端系統正确運作端到端信令,在系統之間進行能力交換、發送指令和訓示信号,以及提供打開和描述邏輯信道的資訊。
系統控制是利用控制協定的控制信令對系統進行控制。視訊會議系統各終端系統之間的互通一般是依據一定的步驟和規程通過系統的控制來實作的。每進行一項步驟都由相關的信令信号完成。
(9)多路複用和解複用裝置
該裝置可将視訊、音頻、資料、信令等各種多媒體數字信号組合為64~1920kbps的數字碼流,成為與使用者/網絡接口相容的信号格式。同時,也可把接收到來自遠地會議場點的比特流分解為各種多媒體信号。此外,其中包含的複用協定還具有能對圖像序列進行編号、進行誤差檢測以及采用重傳輸的方式實作誤差校正等功能。
(10)使用者/網絡接口
使用者/網絡接口是使用者端的終端系統與通信網絡信道的連接配接點,該連接配接點稱為接口。該接口主要完成通信網絡與多路複用和解複用子產品的比對問題。
其中有幾點值得注意:
①終端系統結構中各子產品并不是獨立存在的,在實際設計時可能會将若幹子產品內建或鑲嵌在一起協調工作,如時延電路子產品就内嵌在音頻編碼解碼器電路中。
②各子產品并不是都由硬體實作。事實上,目前上市的産品中,除了視訊、音頻輸入輸出裝置和使用者/網絡接口子產品外,其餘子產品均可由軟體實作。
2.3 組網結構
視訊會議系統的組網結構随與會者參加方式的不同有所不同,從整體上看,有兩種組網結構:點對點組網結構和多點會議組網結構。
2.3.1 點對點組網結構
點對點視訊會議系統隻涉及到兩個會議終端系統,其組網結構非常簡單,不需要MCU,也不需要增加額外的網絡裝置,隻須在終端系統的系統控制子產品中增加會議管理功能即可實作。其組網結構如圖2-5所示,圖中控制協定虛線實際上并不存在,其内容也是通過接口互相傳遞的。
接口 |
B |
控制協定 |
接口 |
A |
會議管理 |
會議終端 |
通信網絡 |
會議管理 |
會議終端 |
兩個會議場點(終端系統)隻須互相撥号呼叫對方并得到對方确認後便可召開視訊會議。目前比較流行的可視電話的通信網絡是PSTN,實際上這是點對點結構的一種特例。
2.3.2 多點會議組網結構
在多個會議場點進行多點會議時,必須設定一台或多台MCU(多點控制裝置)。MCU是一個數字處理單元,通常設定在網絡節點處,可供多個會議場點同時互相間的通信。MCU應在數字域中實作音頻、視訊、資料信令等數字信号的混合和切換(配置設定),但不得影響音頻、視訊等信号的品質。
多點會議組網結構比較複雜,根據MCU數目可分為兩類:單MCU方式和多MCU方式。而多MCU方式一般又可分為兩種:星型組網結構和層級組網結構。
(1)單MCU方式
在會議場點數目不多且地域分布比較集中時,可采用單MCU方式,其組網結構如圖2-6所示。圖中TA,,TB,…TF均為視訊會議終端系統裝置。
MCU |
TF |
TA |
TB |
TE |
TC |
TD |
各會議場點依次加入會議時,必須經過MCU确認并通知先于它加入會議的會議場點。
(2)星型組網結構
多MCU連接配接的星型組網結構如圖2-7所示,其中VCT是視訊會議終端Video Conference Terminal的縮寫。
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
MCU |
MCU |
MCU |
MCU |
這種星型結構對會議終端要求較低,增加新會議場點時易擴充。MCU功能類似于交換機,各MCU在這種組網結構中地位平等。由于該組網方式的會議場點數目較多,其會議控制模式宜采用主席控制模式。
(3)層級組網結構
多MCU連接配接的層級組網結構最适宜于布置在各會議場點地域上很分散的情況,可利用ISDN,B-ISDN或DDN(長途數字傳輸網)等通信網絡。其組網結構如圖2-8所示。
VCT |
三級 MCU |
二級 MCU |
一級 MCU |
VCT |
VCT |
VCT |
三級 MCU |
二級 MCU |
二級 MCU |
三級 MCU |
三級 MCU |
三級 MCU |
三級 MCU |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
VCT |
這種層級結構覆寫的地域很廣,也可以進行國際間視訊會議,不僅易于擴充,而且更易于管理。多個MCU在組網結構中地位是不同的,有等級之分,下層的MCU受上層的MCU控制和制約。
這種結構将是未來發展中最理想的組網結構,其最理想的通信網絡結構是現存的Internet,因為在分布式結構與分布式管理機制方面,二者有驚人的相似之處。但令人遺憾的是将Internet引入視訊會議系統目前仍有許多無法克服的技術問題。
最适于這種結構的會議控制模式是聲控模式和主席控制模式。
2.3.3 多點控制裝置
多點控制裝置(MCU:Mulitpoint control unit)是多點視訊會議系統的關鍵裝置,它的作用相當于一個交換機,但它又與一般電話網中的交換機不一樣。前者是對數字信号進行切換,而後者是對模拟信号進行切換。MCU将來自各會議場點的資訊流,經過同步分離後,抽取出音頻、視訊、資料等資訊和信令,再将各會議場點的資訊和信令,送入同一種處理子產品,完成相應的音頻混合或切換、視訊混合或切換、資料廣播和路由選擇、定時和會議控制等過程,最後将各會議場點所需要的資訊重新組合起來,送往各相應的終端系統裝置。
MCU還有自動統一傳輸速率的功能,同一次會議的所有終端應該工作在同一速率上,如果與它連接配接的終端系統速率不一緻,它會自動選擇所有終端系統的最低速率位工作速率。
MCU主要處理以下三類資料:
1、 視訊信号
主要由視訊處理器完成。
MCU對視訊信号一般采用直接配置設定的方式,若某會議場點有人發言,它的圖像信号便會傳送到MCU,MCU将其切換到與它連接配接的所有其他會議場點。
如果每個會議場點需要同時觀看多個會議場點的圖像(多視窗系統或多監視系統)時,MCU的視訊處理器才對多路視訊信号進行混合處理。
2、 音頻信号
音頻信号主要由音頻處理器完成。
如果隻有一個會議場點發言,MCU将其音頻信号切換到其他會議場點;若同時有幾個會議場點發言,MCU根據會議控制模式選出一個音頻信号,将其切換到其他會議場點。
音頻處理器由語音代碼轉換器和語音混合子產品組成。前者從各個端口輸入的資料流的幀結構中分離出各種語音信号,并進行譯碼,然後送入語音混合器進行線性疊加,最後送入編碼器,形成合适的編碼形式,插入到輸出的資料流中。
3、 資料信号
資料信号主要由資料處理器完成。
MCU采用廣播方式将某一會議場點的資料切換到其他會議場點,這主要用于主席控制子產品。
此外,MCU結構中網絡結構子產品和控制處理器也是必不可少的。
其中,網絡接口子產品分輸入、輸出兩方向,該子產品校正輸入資料流和輸出資料流,并按本地系統的時鐘定位輸入的資料流。在接口子產品的輸出方向插入所需的各種信令和資訊,形成信道幀,以便輸出到通信網絡數字信道。
控制處理器主要負責決定正确的路由選擇,混合或切換音頻、視訊、資料信号,并對會議進行控制。
2.3.4 多點會議控制模式
在多點視訊會議中,與會者既能看到其他會議場點的與會者,又能聽到他們的講話,但這個過程可能并不是同時發生的。那麼,在某一時刻到底能看到誰呢?它由多點視訊會議的控制模式來決定。
目前,業界已根據視訊會議使用者的各種不同需要開發出一系列控制模式,其中五種比較重要的控制模式是聲控模式、發言人控制模式、主席控制模式、廣播/自動掃描模式以及連接配接模式。
1、 聲控模式
聲控模式的使用極為普遍,是全自動工作模式,按照“誰發言顯示誰”的原則,由聲音信号控制圖像的自動切換。
多點會議進行過程中,一般隻有一方發言,其他會議場點顯示發言者的會議圖像。當同時有多個會議場點要求發言時,MCU從這些會議場點終端系統送來的資料流中抽取出音頻信号,在語言處理器中進行電平比較,選出電平最高的音頻信号,即與會者講話聲音最大的那個會議場點,将其圖像與聲音信号廣播到其他的會議場點。
同時為防止由于咳嗽、噪聲之類的短促幹擾造成誤切換,雙方同時發言造成圖像資訊的重疊輸出等問題,設定聲音判決延遲電路,聲音持續1~3s後,方能顯示發言者的圖像。無發言者時,輸出主會場全景或其他圖像。此外,在有人發言時應将該系統鎖定,這樣,由背景噪聲等引起的幹擾就不會将畫面切換到其他場所,進而保證視訊會議畫面的穩定性。
聲控模式對項目組會議是十分理想的,與會者可以自由發言。
該控制模式僅适于參加會議的會場數目不多的情況,一般控制在十幾個會議場點之内。因為如果要比較的聲音信号數目愈多,則背景噪聲愈大,MCU的語言處理器将很難選出最高電平的語言信号。
2、 發言人控制模式
該控制模式一般與聲控模式混合使用,與聲控模式一樣是全自動工作模式,也僅适用于參加會議的會場數目不多的情況。
當召開一次多點會議時,要發言的人通過編碼譯碼器向MCU請求發言。此時如按桌上的按鈕,編碼譯碼器便給MCU一個請求信号,如MCU認可便将它的圖像、語音信号播放到所有與MCU相連接配接的會議終端,同時MCU給發言人會議終端一個已“終端”的訓示,使發言者知道它的圖像、語音信号已被其他會議場點收到。當發言者講話完畢時,MCU自動切換恢複到聲控模式。
3、 主席控制模式
該控制模式将所有會議場點分為主會場(隻有一個)和分會場兩類,由主會場組織者(或稱主席)行使會議的控制權,它根據會議進行情況和各分會場發言情況,決定在某個時刻人們會看到哪個會場,而不必考慮此刻是誰在發言。
主席可點名某分會場發言,并與之對話,其他會場收聽它們的發言,收看發言人圖像。分會場發言需向主席申請,但須經主席認可後發言有效,此時申請發言的會議圖像才被傳送到其他各分會場。
這種控制模式具有很大的主動性,控制效果比較好,避免了聲控模式中頻繁切換圖像造成的混亂現象。
當然,主會場與分會場的地位在同一次會議中也可以動态變化。
4、 廣播/自動掃描模式
該控制模式實際上是主席控制模式的一個變種。這種模式可以将畫面設定為某個會場(這個會場被稱為廣播機構),而這個會場中的代表則可定時、輪流地看到其他各個分會場。這種模式按照事先設定好地掃描間隔自動地切換廣播機構的畫面,而不論此刻是誰在發言。
5、 連續模式
連續模式是一種最新發展的控制模式。這種模式通過将螢幕分割成若幹視窗,而使與會者可以同時看到多個分會場的情況。
值得注意的是,控制模式是由應用程式所驅動的,當視訊會議中出現新的應用需求時,就會産生新的控制模式來支援它們。
2.4 小結
本章從視訊會議系統的整體結構入手,給出了系統結構、終端結構、組網結構三個部分。系統結構從邏輯和實體兩個角度進行讨論;終端結構逐一介紹視訊會議系統涉及到的各個硬體裝置部分;組網結構從節點連接配接情況讨論了點對點會議組網和多點會議組網。
本章的重點是組網結構,重點讨論多點會議的組網結構,根據江蘇省高法視訊會議系統這個項目的需求,正好可以采用多點會議的組網結構,這些将在後面的章節中讨論。在組網結構這節引出了多點控制裝置(MCU)這個關鍵裝置,強調其在多點視訊會議系統中的作用,在後面具體組網方案中MCU被廣泛地使用。同時在組網成型後還需要輔助以控制模式,詳細介紹了5種模式,特别是主席控制模式,非常适合于多點會議的主分會場形式。