天天看點

一些智能通信終端的例子

顧名思義,智能通信終端是指具有智能特征 的通信終端,其根本特點應是具有視、聽、說、了解和自學習、推理的能力,表現在具有拟人化的人機接口和友好的操作界面,應用語音識别和合成、文字識别、自然語言了解等語音及語言處理關鍵技術。

   智能語音接口技術

  智能接口,也稱人機接口,是在智能通信終端上建立的一種拟人化的人機互動環境。智能接口技術除涉及人工智能和計算機科學外,與信号處理、電子技術、語言學、認知科學,乃至現代心理學、神經生理學等都有密切的關系。目前,在該領域中的主要研究課題有多媒體與虛拟現實、語音識别和合成、文字識别、計算機視覺和圖像識别、自然語言處理、自動摘要及機器翻譯等。由于語音是人類最自然 的通信手段,人們的資訊互動有60%是通過語音通信來完成的,是以目前通信終端的主體也基于語音通信。

   1.語音識别

  語音識别是對智能通信終端最具影響的技術之一。由于早期的語音識别是采用“模闆法”來實作的,而這種基于模闆比對的語音識别,隻能滿足小詞彙量、特定人、非連續語音識别的需求,無法提供人們對大詞彙量、非特定人、連續語音識别的需要。智能通信的需求反過來又對語音識别技術提出了更高的要求。

   電話語音識别 在高速資料信道和便攜資料終端普及前,我們最先利用的仍是傳統語音電話信道和一般意義上的電話終端,這就意味着需要識别經過整個電話信道而産生了某種畸變的語音信号。打電話時使用者可能會處于各種嘈雜的環境,是以噪聲背景下的語音識别也是要解決的問題。電話語音識别具有最迫切的市場需求,目前已成為國内外研究和開發的重點。

   語音識别的魯棒性 各種噪聲,特别是行動電話所産生的編碼和信道噪聲,是識别原始語音信号的一大幹擾,且此類幹擾随機發生。是以,需要一種能對各種環境、信道噪聲進行過濾或在識别過程中加以糾正的技術。針對我國使用者群随機的情況,需要建立普适度更高的模型或對不同口音自動适應,使系統具有較強的魯棒性。

   口語語音識别 當電話語音識别技術用于實作電話查詢、自動接線及專門業務(旅遊資訊服務等)操作時,會出現許多不符合文法的情況,産生備援資訊,這給語音識别帶來大的挑戰。

   多語種語音識别 網絡時代必然會涉及多種語言,例如語音識别用于大都市電話查詢服務時,使用者可能使用漢語國語、廣東話,或者英語進行查詢,這就要求識别系統有多語種識别的能力。

   分布式語音識别 分布式語音識别是在客戶終端上做語音信号參數提取工作,而僅将參數傳送到伺服器端作進一步識别。不僅解決了信道噪聲和現有編寫終端計算存儲能力的問題,還具有占用帶寬窄、綜合成本低等優點,但其前提是提取的參數必須标準化。随着個人、移動通信的需要,通信終端日趨小型化,各種掌上裝置正進入人們的生活,如手機、商務通、個人助理等。用語音方式是解決輸入/出及各種操作問題的最理想手段。

   2.語音合成

  語音合成技術是使電腦或通信終端具有類似于人一樣的說話能力,是當今時代資訊産業的重要研究領域。和語音識别相比,語音合成技術更成熟一些,是最有希望首先在智能通信終端中得到普遍應用并形成帶動作用的一項關鍵技術。目前,語音合成有高自然度、晶片級、多語種、分步式和口語式的語音合成等發展方向。按照智能化程度的不同層次,語音合成可分為三個層次:從文字到語音;概念到語音;意向到語音的合成。為合成出高品質的語音,除依賴于各種規則,還必須對文字内容進行很好的了解。文字/語音的轉換系統。

   (1)文本分析

  文本分析旨在确定文本中哪些是詞、短語或句子;每個字應如何發音,一般由文本預處理、分詞、韻律分析等環節組成。

  此外,随着機器學習和資料發掘技術的發展,出現了基于資料驅動技術的文本分析方法。例如采用決策樹或神經網絡方法,從大量的資料中通過訓練生成韻律模型。

   (2)語音合成器

  目前,最流行的語音合成器是采用基音同步的重疊相加(PSOLA)方法來實作波形拼接(這裡指的基音或基頻是語音韻律特征中的音高或聲調的實體表現參數,基頻曲線變化直接導緻聲調變化)。PSOLA算法的基本思想是以語音信号基音周期為分析對象,在基音同步基礎上對信号聲調和時長進行修改。

  然而通過信号處理的方法調整韻律特性,終究會對音色有一定的損傷。即使是PSOLA算法,當韻律修正的範圍變大時,音色也會有明顯下降。基于“聽感量化”波形拼接方法,其出發點就是語音合成時盡量減少動用合成器來調整韻律參數。由于“聽感量化”單元從原始發音中直接截取,避免了用語音合成器調整參數時對音質的損害,保證了合成系統具有接近自然發音的音質,其自然度達到使用者可接受的程度。

   3.自然語言了解

  語音識别與合成都離不開自然語言了解。語音識别中音/字轉換和語音合成中字/音轉換的正确率都取決于對語言了解的深度。從智能通信終端的應用看,系統有時不僅要正确識别使用者的發音,而且要了解它,然後執行相應指令。此外,系統還需産生合适的回答,比如反問、回報資訊給使用者。這就會涉及自然語言生成,這是語音合成的更高一級階段,和自然語言了解更是密不可分。

  随着Internet迅速擴張,自然語言了解的任務不僅是建立一種能夠像人那樣了解自然語言的計算模型,還需建立模拟人腦語言感覺過程的理論模式。為使智能通信終端做到對口語和文字的了解,并及時響應,必須以文法與語義相結合,解決有關知識(特别是模糊知識)的表達與利用問題。自然語言了解在智能通信終端中的應用還包括:自然語言查詢處理提供各種類型的相似性及或然性比對,并傳回按等級排列的檢索結果;矯正利用語音識别自動生成的腳本中的錯誤;影像标題生成和摘要建立(如略覽版的生成)等。

  目前語音識别和語音合成采用統計的方法,即通過對大量的語料統計來實作自然語言了解的方法,如二/三元語言模型等非常實用,突破了傳統分析方法對不受限語句的了解。

   智能終端與語音門戶

  在當今飛速發展的資訊社會,人們越來越希望可以通過行動電話等通信終端裝置來實作快速便捷的交流,即通過行動電話等通信終端裝置接入網絡,并操縱遠端資訊源得到資訊或進行電子化交易。目前,采用撥号接入網絡的過程耗時長,而語音接入僅需短短幾秒,這無疑将大大提高接入速度。另外,這種語音技術不但令使用者無論在何時、何地,都可以利用手中 的通信終端裝置輕松接入網絡,得到所需資訊或購買商品及服務,還将大大提高商業自動化程度、降低企業的營運成本、改善服務品質、使商務活動更加便捷。

  語音門戶,是指基于網際網路平台,應用語音識别、合成和轉換技術,為固定和行動電話使用者提供用語音通路網際網路并擷取網上資訊的門戶,是全球網際網路發展的最新趨勢之一。語音門戶融合了語音、CTI、Web、電信、計算機及網絡等技術,構築出新一代語音上網平台,将使更多的使用者能夠通過各類通信終端快速接入網際網路,為企業帶來新的業務增長點。從技術角度看,随着自動語音識别(ASR)、文本轉語音(TTS)、口語對話等人機互動技術、資訊處理技術的發展,以及像語音浏覽器、嵌入式語音浏覽器等Voice Web技術的成熟,再加上移動使用者終端種類與功能的快速增加,使語音門戶在通信終端中的應用提供了可靠保證。

   1.分布式語音處理

  ①分布式語音識别在智能通信終端中,語音識别的首要目标是使使用者不用敲擊或遠離鍵盤即可輕松通路大部分計算機服務和通信系統。分布語音識别(DSR)技術采用客戶機/伺服器方法,整個處理過程分布于終端(如手機)和網絡兩端。終端執行語音特征參數提取任務,是語音識别系統的前端。提取的特征參數通過資料信道傳輸至遠端的後端識别器。這樣,傳輸信道不影響識别系統性能,信道不變性的目的得以實作。而目前基于網際網路上的分布式語音識别是由呼叫中心發展而來,并已在基于包交換的VoIP網絡進行了測試。

  ②分布式語音合成在基于網絡應用,特别是客戶機/伺服器典型模式下,終端與服務端之間的實作之間必然存在沖突,加上信道、處理資源與使用者體驗等多方面的綜合影響,語音合成的分布式實作了把傳統TTS的處理環節分解成為标準化的實作子產品:文本分析和語音合成子產品。文本分析子產品涉及詞典、分詞、各種語言學處理,将占用較大資源,可放在伺服器端實作,即經過處理後形成音韻序列再傳送到終端上去;語音合成子產品則可以放在終端上實作。由于音韻序列基本上由符号資料組成,與直接傳送文本資料占用的信道帶寬差不多,不影響傳輸性能,但卻反而使終端擺脫了文本分析的壓力,降低了成本。當然,标記語言和資料傳送的格式必須标準化,才能得以推廣。

   2.語音浏覽器

  語音浏覽器通過語音的方式浏覽VXML(基于XML國際标準的語音可擴充辨別語言,像HTML定義圖形化網頁界面一樣定義了語音界面)内容,并通過Transcoder伺服器直接浏覽網上HTML格式的内容。它主要包括Voice XML、電話語音接入、TTS/ASR資源及Transcoder伺服器。

  語音浏覽器是希望使普通電話作為浏覽器終端,應用自然語言互動的方式取得相關的定制資訊服務或Internet上釋出的Web資訊内容,通過電話終端與伺服器端的語音接人、ASR/TTS、VXML伺服器以及各種Transcoder,構成相當于IE的浏覽器,實作語音上網工程的核心組成部分。應用語音浏覽器可使我們輕松地用電話、電視等電子或電氣裝置走進網際網路;在将來,它還可支援其他模式和媒體,如用筆、圖像和傳感器作為輸入,用活動圖像和激勵控制作為輸出;便攜式語音浏覽器可在任何地方使用,網上資訊便随手可得,特别是那些有電話或行動電話的使用者更是如此;為盲人使用者提供友善的實用接口,使他們獲得和正常人一樣的工作空間;跨越各種平台,像電腦、電視、電話(包括行動電話)等,使人們随時随地擷取所需的網上資訊,并用語音表達出來。随着其中各項技術的發展、成熟和完善,語音浏覽器市場将會迅速發展起來。

   3.嵌入式語音浏覽器

  嵌入式語音浏覽器支援HTTP或者WAP等傳輸協定及HTML、JavaScript、擴充XML、Voice XML等标記語言,可完成網頁浏覽功能;适合在非PC的嵌入式資訊裝置中存在、運作,并完整實作通信傳輸協定、标記語言所規定的功能;根據嵌入式裝置的多樣性需求進行裁減和修改,并滿足資訊裝置使用者友善地擷取文字、圖像、聲音、視訊等資訊;可廣泛應用到各種非PC裝置或通信終端,如電視上的機頂盒、互動式數字電視、手持上網裝置(行動電話、掌上電腦、個人數字助理等)、網際網路電話、網絡終端、電子圖書閱讀器、公共資訊查詢系統等。

   網絡的自适應

  在通信時,智能通信終端應能自動檢測所連接配接的網絡及傳輸方式(模拟通信網絡、數字通信網絡、ISDN、無線連接配接等),選擇最優化的網絡及傳輸方式,自适應地連接配接到所選擇的網絡中去,以所選擇的網絡要求的處理方式處理資料,開展工作。

  未來的智能通信終端不僅小巧便攜,使用簡便,而且功能多,能滿足人們各種不同種類資訊傳輸的需求。無論何時何地,使用者都可随機發送或接收資訊,并能根據所處環境,自适應地選擇最優傳輸網絡。未來的智能通信終端不再是隻能進行某一種通信的終端,而是可以進行許多種類 的通 

繼續閱讀