基于智能語音識别的雲電視系統設計

為了提高智能電視的可操作性，文章提出了一種基于智能語音設别的雲電視系統設計方案。該系統在傳統的智能電視上加入語音輸入和雲端網絡技術，對語音智能處理之後達到操作電視的作用，可以通過語音輸入自動查找或者使用電視功能，提高了智能電視的可操作性，讓智能電視使用更友善，适合更多的使用人群。

目前，随着計算機和網際網路技術的高速發展、3c融合的趨勢以及電視機的數字化發展，作為家庭娛樂核心家電的電視機已經開始向智能化多媒體網絡電視方向發展。智能網絡電視機是一台多功能的網絡終端，使用者可以通過該網絡終端得到諸多資訊和服務，然而伴随應用功能的增加，其操作也随之變得複雜。面對智能電視的功能複雜、操作難問題，僅僅是将電視機的紙質說明書或者做成電子文檔以flash形式在電視機上進行播放，并沒有詳細的指引使用者操作的導航功能，或者說有詳細的說明，電視面對的是任何消費者，很多功能的操作他們也不是很明白，甚至很多功能都找不到。在電子産品智能化的今天，智能語音設别是一個熱門話題，該技術的實作提高了電子産品的可操作性，為使用者帶來了更多的友善。是以設計一個基于智能語音設别的電視系統，用語音來實作快速導航到各個需要的功能、資訊、服務等應用成為當務之急。

本系統為基于智能語音設别的雲電視系統，将輸入的語音資料傳輸到電視機系統，系統把該模拟語音資料預處理，轉化為數字語音信号，根據各個子產品需求把數字語音資料發送到雲端，雲端經過智能語義識别分析處理之後，傳回具體的控制指令給電視予以處理。

基于智能語音識别的雲電視系統設計

1.系統總體設計

該電視系統結構圖如圖1所示，該系統分三個子產品設計，語音設别、電視系統處理、雲端處理。在有網絡連接配接的情況下，通過麥克錄入語音，再通過語音子產品把錄入的語音轉化為特定的語音格式傳輸到雲端的中央伺服器，雲端伺服器把傳輸過去的的語音與許多表示特定字元的語音模型進行比較，以提供輸入語音所包含特定字元的許多不同可能性。然後，雲端伺服器生成一個字元序列，根據基于字元的語言模型，這個字元序清單示了輸入語音中所包含已知特定字元的特定序列的不同可能性。然後字元序列通過網絡被傳輸到中央伺服器，在這裡，字元序列生成一個詞彙序列，根據詞彙表和基于詞彙的語言模型，這個詞彙序清單示了輸入語音中所包含已知特定字元的特定序列的不同可能性。然後，雲端伺服器根據詞彙表确定哪個特定詞彙序列與輸入語音最比對，并将所确定的詞彙序列經由網絡輸送回終端電視機系統，電視機系統再把得到的資料分子產品處理（電視機系統不同子產品有不同的功能）。該電視系統硬體使用MIPS構架CPU，配置Linux作業系統。語音通過MIC輸入，設計有兩路MIC接口，使用标準的網絡接口用于網絡通信。

2.語音識别系統設計

2.1　語音識别基礎知識

語音設别技術，也被稱為自動語音設别，即Automatic Speech Recognition（ASR），其目标是将人類語音中的詞彙内容轉換為計算機可讀的輸入，例如按鍵、二進制編碼或者字元序列。與說話人設别及說話人确認不同，後者嘗試設别或确認發出語音的說話人而非其中所包含的詞彙内容。

語音識别系統本質上是一個模式識别系統。語音識别一般分兩個步驟，第一步是系統“學習”或“訓練”階段。這一階段的任務是建立識别基本單元的聲學模型以及進行文法分析的語言模型等。第二步是“識别”或“測試”階段。根據識别系統的類型選擇能夠滿足要求的一種識别方法，采用語音分析方法提取出這種識别方法所要求的語音特征參數，按照一定的準則和測度與系統模型進行比較，通過判決得出識别結果。

基于智能語音識别的雲電視系統設計

2.2　語音設别系統設計

語音設别系統框圖如圖2所示。首先要把電視機麥克輸入的模拟語音信号進行預處理，雲端需要數字語音信号，這裡預處理使用語音IC進行處理，包括預濾波、采樣和量化、信号數字化、加窗、斷點檢測、預加重等。語音信号經過預處理後，接下來重要的一環就是特征參數提取，其目的是從語音波形中提取出随時間變化的語音特征序列。把特征提取的結果送到電視機作業系統中進行判斷處理，分析是否需要将其傳送到雲端伺服器，雲端伺服器在對接收到的語音進行智能分析處理之後傳回電視機終端，進行相應的功能處理。

2.3　雲端伺服器智能處理

雲端伺服器處理主要針對數字化語音資料進行分析處理，本系統的功能比較複雜，語音處理工作量非常大，該設計基于雲計算的伺服器來完成，在伺服器端對語音進行分析處理的同時還需要進行智能設别，該智能設别主要針對本電視機系統的一些關鍵字及語音的語義分析，同時對于電視機的不同子產品進行分别處理，來完成使用者所想的功能。使用雲計算伺服器可以減少電視機終端的硬體成本，增加處理速度，來達到對使用者指令的智能處理。

2.3.1　電視機與雲端的傳輸協定

對于特定的電視機系統，每個子產品具有特定的關鍵字，在傳輸資料到雲端的時候，需要傳輸子產品特征和相應的語音資料。

2.3.2　語音訓練與識别的主要方法

在雲端接收到資料之後，需要對語音資料進行設别。語音訓練與識别是一個模式訓練和識别的過程。模式訓練是指依照一定的規則，對大量訓練資訊進行處理，擷取能夠反映該資訊本質特征的模型參數，将從這些訓練資訊中得到的模型參數組合成一個模式庫，而模式比對則是指依據一定的規則規範，将輸入的未知模式與模式庫中的模式進行比對，從模式庫中尋找一個相似度最高，即最佳比對的模式。這種訓練和比對的方法有許多種，目前較常見的方法主要有動态時間規整（DTW）、隐馬爾可夫鍊（HMM）模型、人工神經網絡（ANN）等。

2.3.3　隐馬爾可夫鍊模型

本系統用隐馬爾可夫鍊（Hidden Markov Models，HMM）模型來對語音進行訓練和識别，在隐馬爾可夫鍊模型中，它使用馬爾可夫鍊來模拟信号統計特性的變化，本質上它是一個雙重随機過程的機率模型。第一重随機過程的機率模型是指由馬爾可夫鍊來表示狀态之間的轉移，另外一重随機過程的機率模型是指每個狀态和多個觀測值之間的随機對應關系。在實際問題的應用中，HMM的雙重随機過程觀察者不能直接看到狀态，隻能看到觀察值，且隻有利用一個随機過程去感覺狀态的存在以及特征。本質上說，人類的語言過程也是一個雙重随機過程。語音信号本身是一個能夠被觀測到的時變序列，是由人的大腦根據文法知識和言語的需要而發出的音素的參數流，這部分就相對于HMM模型中不可觀測的各種狀态。HMM模型可以很好地模拟這個雙重随機過程，并且很好地描述了語音信号的局部平穩性以及整體的非平穩性，是一種描述語音信号的理想模型。

基于智能語音識别的雲電視系統設計

2.3.4　智能語音識别

此處采用的關鍵字識别系統為基于連續語音識别（LVCSR）的關鍵詞識别系統，如圖3所示，使用這種結構适用于連續語音關鍵詞識别系統：語言經過連續語音音節識别器後，産生相應的N-Best詞格或音節網格，然後使用關鍵詞搜尋算法對網格進行關鍵詞搜尋。其過程可以大緻分成三步：第一步，搜尋語音基元，也就是說通過這次搜尋得到輸入語音對應的拼音序列。通過連續解碼，可以得到一個N-Best音節序列或者音節的網格。第二步，針對電視機終端功能子產品選擇不同的關鍵詞表。第三步，根據上一步得到的音節序列和關鍵詞詞表對照，進行關鍵詞的搜尋，得到假象命中（可能成為關鍵詞的詞）。第四步，根據其他知識源分析第三步得到的假想命中的置信度，給出關鍵詞識别的結果。第五步，對第四步輸出的關鍵字結果進行智能處理，根據特定的電視機系統功能子產品給出最終的輸出結果。

基于智能語音識别的雲電視系統設計

3.電視機智能語音識别處理軟體流程

3.1　錄音檢測

電視機智能語音識别處理流程圖如圖4，在需要使用語音設别時，首先需要按下錄音鍵，這個時候系統會檢測網絡是否連接配接和麥克是否可以正常使用，如果其中有一項檢測失敗，系統不會做錄音工作，提示檢查網絡或者檢查麥克。

3.2　錄音處理

在裝置檢測之後，進行錄音，由于系統限制，錄音有時間限制，不能太長。電視機終端把麥克錄下的語音進行預處理和特征提取，然後再把語音和子產品特征一起傳輸到雲端伺服器，雲端伺服器再做細緻的處理，處理之後再把資料傳回終端電視機。

3.3　智能功能處理

在電視機終端等待接收資料，在5秒之内沒有接收到資料，視為time out，資料處理失敗。如果接收到資料後做相應的處理，在雲端就有對各個子產品的關鍵字識别，将傳回的資料再針對相應的子產品做判斷處理。比如在主功能界面，如果語音輸入“shezhi”，系統将進入設定界面。或者在影視界面，如果輸入“halibote”，系統會查找哈利波特這部影片。

4.實驗應用

由于電視系統在使用過程中情況比較複雜，通過語音設别的準确率也有一些差異。為了得到相對準确的資料，測試分幾種情況，一種是在電視系統沒有播放audio的時候和在播放audio的時候，另一種是輸入語音的長度不一緻的情況。

4.1　測試嘈雜環境試驗

這個測試分兩種情況，一種是沒有播放audio的時候（或者說audio mute的時候），一種是在有播放audio的時候（由于audio播放時分貝不一樣，是以以各種嘈雜環境的綜合值為主），實驗結果見表1：

基于智能語音識别的雲電視系統設計

4.2　測試改變輸入關鍵字長度試驗

本系統為智能語音設别，需要做智能分析，通過輸入語音來判斷系統的動作，關鍵是在語音設别的準确性和智能識别處理上，而輸入關鍵字的長度對系統的準确性判斷相當關鍵。本次實驗就是針對長度不一緻的輸入做分析，實驗結果見表2：

基于智能語音識别的雲電視系統設計

從兩個測試來看，系統識别準确率相當高，實驗達到了預期的效果。關鍵是在特殊環境下進行處理時，本系統在識别之後還有關鍵字和智能處理，以達到更好的智能處理。

5.結語

該系統采用了高效的語音設别技術和穩定的MIPS硬體平台為基礎，軟體設計上以Linux作業系統為基礎，在原有的智能電視系統上使用雲計算處理語音資料，使之系統處理實時性更高。通過測試表明，該系統能非常準确地判斷語音輸入，資料處理速度快，系統穩定性高。此系統達到了在電視系統中使用智能語音設别的功能，這樣通過語音操作，大大提高了系統的可操作性，使之使用友善，更加智能化。

浏覽《中國高新技術企業 12年7月上》原版雜志