1.緒論
1.1概述
語言是人類交換資訊最友善、最快捷的一種方式,在高度發達的資訊社會中,用數字化的方法進行語音的傳送、存儲、識别、合成和增強等是整個數字化通信網中最重要、最基本的組成部分之一。
語音信号處理技術主要可以應用到:
1) 數字電話通信
2) 高音質的窄帶語音通信系統
3) 語言學習機
4) 聲控打字機
5) 自動翻譯機
6) 智能機器人
7) 新一代計算機語音智能終端
8) 許多軍事上的應用
語音信号處理是一門新興的邊緣科學,它是語音學與數字信号處理兩個學科相結合的産物。它和認知科學、心理學、語音學、計算機科學、模式識别和人工智能等學科有着緊密的聯系。
語音信号處理的目的是要得到某些語音特征參數以便高效地傳輸或存儲;或者是通過某種處理運算以達到某種用途的要求,例如人工合成語音、辨識出講話者、識别出講話的内容等。
随着現代科學和計算機技術的發展,除了人與人之間的自然語言的通信方式之外,人機對話及智能機器等領域也開始使用語言。通常認為,語音資訊的交換大緻上可以分為三大類:
1) 人與人之間的語音通信:包括語音壓縮與編碼、語音增強等
2) 第一類人機語言通信問題,指的是機器講話、人聽話的研究,即語音合成
3) 第二類人機語音通信問題,指的是人講話、機器聽話的情況,即語音識别和了解
1.2 語音信号處理的發展
1876年:貝爾電話的發明,該技術首次用聲電、電聲轉換技術實作了遠距離的語音傳輸。
1939年:homer dudley提出并研制成功的第一個聲碼器,從此奠定了語音産生模型的基礎。
19世紀60年代:亥姆霍茲應用聲學方法對元音和歌唱進行了研究,進而奠定了語言的聲學基礎。
20世紀40年代:一種語言聲學的專用儀器——語譜圖儀問世了。
1948年:美國haskins實驗室研制成功“語音回放機”,該儀器可以把手工繪制在薄膜上的語譜圖自動轉換成語音, 并進行語音合成
20世紀50年代:語言産生的聲學理論開始有了系統的論述。
随着計算機的出現,語音信号處理的研究工作得到了計算機技術的幫助,使得過去受人力、時間限制的大量的語音統計分析工作,得以在電子計算機上進行。在此基礎上,語音信号處理不論在基礎研究方面,還是在技術應用方面,都取得了突破性的發展。
下面分别論述語音信号處理的三個主要分支(語音合成技術、語音編碼和語音識别技術)的發展和現狀。
1.2.1 語音合成
最早的合成器:
1835年:w.von kempelen發明,經weston改進的機械式會講話的機器。該機器完全模仿人的發音生理過程,分别用風箱、特别設計的哨和軟管來模拟肺部的空氣動力、模拟口腔。
最早的電子式語音合成器:
1939年:homer dudley發明的聲碼器,它不是簡單地模拟人的生理過程,而是通過電子線路來實作基于語音産生的源-濾波器理論。
但真正具有實用意義的近代語音合成技術是随着計算機技術和數字信号處理技術的發展而發展起來的,主要是采用計算機産生高清晰度、高自然度的連續語音。
早期的研究主要采用參數合成方法:
1973年:holmes發明的并聯共振峰合成器
1980年:klatt發明的串/并聯共振峰合成器
最具代表性的文本轉換系統:
1987年:美國dec公司的dectalk
自20世紀80年代末期至今,語音合成技術又有了新的進展,特别是1990年提出的基因同步疊加(psola)方法,使基于時域波形拼接方法合成的語音的音色和自然度大大提高。
20世紀90年代:基于psola技術的法語、德語、英語、日語等語種的文語轉換系統都已經研制成功。
我國的漢語語音合成研究起步較晚,但從20世紀80年代初就基本上與國際研究同步發展。大緻也經曆了共振峰合成、lpc合成到應用psola技術的過程。
現階段語音合成的最大進展是已經能實時地将任意文本轉換成連續可懂的自然語句輸出。