人工智能：語音識别技術介紹

作者：IT技術分享社群 2022-12-01 07:11:00

#頭條創作挑戰賽#

今天給大家介紹一下關于語音識别相關的知識，希望對大家有所幫助！

1、什麼是語音

語音指的是人類通過發聲器官發出來具有一定意義、用來溝通交流的聲音。

計算機中語音存儲：以波形檔案的方式存儲，通過波形反映語音的變化，進而可以擷取音強、音長等參數資訊。

音域參數：傅利葉譜、梅爾頻率到譜系數，主要用來提取語音内容以及音色的差别，用來更進一步辨識語音資訊。

2、什麼是語音識别

語音識别簡單來說就是把語音内容自動轉換為文字的過程，是人與機器互動的一種技術。

涉及領域：聲學、人工智能、數字信号處理、心理學等方面。

語音識别的輸入：對一段聲音檔案進行播放的序列。

語音識别的輸出：輸出的結果是一段文本序列。

3、語音識别的原理

語音識别需要經過特征提取、聲學模型、語音模型、語音解碼和搜尋算法四個部分。

特征提取：把要分析的信号從最原始信号提取出來，這個階段主要是對語音的幅度标準化、頻響校正、分幀、加窗、始末端點檢測等預處理操作，為聲學模型提供需要特征向量。

聲學模型：依靠聲學模型進行語音參數分析（語音共振峰頻率、幅度等）和對語音的線性預測參數進行分析。

語言模型：根據相關語言學理論，計算出聲音片段可能詞組序列的機率。

語音解碼和搜尋算法：根據聲學模型+發音詞典+語音模型建構的搜尋空間，找到最合适的路徑。解碼完成後最終輸出文本。

4、語音識别系統的組成

一個完整的語音識别系統包括：預處理、特征提取、聲學模型訓練、語言模型訓練、語音解碼器。

4.1 預處理

對輸入的原始聲音信号進行處理，過濾掉其中的背景噪音、非重要資訊，還要對找到語音信号的開始和結束、語音分幀、提升高頻部分的信号等操作。

4.2 特征提取

最常用的特征提取方法為梅爾頓到譜系數(MFCC),因為它擁有良好的抗噪性和健壯性。

4.3 聲學模型訓練

根據懸念語音庫的特征參數訓練出聲學模型參數，進而可以在識别時與聲學模型進行比對得到相應結果。目前主流語音識别系統一般都會采用HMM進行聲學模型模組化。

4.4 語言模型訓練

用來預測哪個詞序列正确的可能性更大。

4.5 語音解碼器

解碼器也就是語音識别技術中的識别過程，根據輸入的語音信号，然後和訓練好的HMM聲學模型、語言模型、發音字典建立一個搜尋空間，根據搜尋算法找到最合适的路徑。進而找到最合适的詞串。

5、語音識别的使用場景

語音識别在日常生活中使用非常廣泛主要分為封閉式和開放式應用。

封閉式應用：主要指針對特定控制指令的應用。

比如常見的有智能家居比如通過語音指令控制燈開關、熱水器開關溫度調節、打開空調等，大大豐富了我們日常的生活；

開放式應用：開放式主要是廠商提供語音識别服務，一般會公有雲或者私有雲的方式部署提供對應的SDK，讓使用服務的客戶進行語音識别服務的調用。

常見的場景有輸入法、會議字幕實時輸出、視訊剪輯字幕配置等場景。

人工智能：語音識别技術介紹

1、什麼是語音

2、什麼是語音識别

3、語音識别的原理

4、語音識别系統的組成

4.1 預處理

4.2 特征提取

4.3 聲學模型訓練

4.4 語言模型訓練

4.5 語音解碼器

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普