天天看點

淺談人工智能 | 語音識别面面觀

語音識别是指機器/程式接收、解釋聲音,或了解和執行口頭指令的能力。随着人工智能和智能助手(如亞馬遜的Alexa,Apple的Siri和微軟的Cortana)的崛起,語音識别已經得到了廣泛應用。

語音識别系統使消費者隻需通過與之交談即可與技術進行互動,進而實作免提請求、提醒和其他簡單任務。

語音識别的工作原理

計算機上的語音識别軟體要求将模拟音頻轉換為數字信号,稱為模數轉換。計算機如要解密信号,必須具有單詞或音節的電子資料庫或詞彙表,以及用于将該資料與信号進行比較的快速手段。語音模式存儲在硬碟上,并在程式運作時加載到記憶體中。比較器依據A/D轉換器的輸出檢查這些存儲的模式,是模式識别的動作。

淺談人工智能 | 語音識别面面觀

實際上,語音識别程式的有效詞彙量的大小與安裝它的計算機的随機存取存儲器容量直接相關。如果将整個詞彙表加載到RAM中,與搜尋硬碟驅動器中的某些比對項相比,語音識别程式的運作速度要快許多倍。處理速度也很關鍵,因為它會影響計算機在RAM中搜尋比對的速度。

雖然語音識别技術起源于個人電腦,但它在移動裝置和智慧家産品的商業領域都獲得了認可。智能手機的普及開啟了向消費者口袋添加語音識别技術的機會,而家庭裝置,如Google Home和Amazon Echo,将語音識别技術帶入了客廳和廚房。語音識别與日益穩定的物聯網傳感器相結合,為以前缺乏智能功能的許多消費産品增加了技術優勢。

随着語音識别技術的使用變得更頻繁,以及更多使用者與之互動,有語音識别軟體的公司将擁有更多的資料和資訊,以供給支援語音識别系統的神經網絡,進而提高語音識别産品的功能和準确性。

怎樣使用語音識别

随着人工智能、機器學習和消費者接受度的提高,語音識别的用途也迅速增長。從谷歌到亞馬遜,到蘋果的家庭數字助理都應用了語音識别軟體,以便與使用者進行互動。消費者使用語音識别技術的方式因産品而異,但可以包括将語音轉錄為文本,設定提醒,搜尋網際網路以及回答簡單的問題和請求,例如播放音樂、或共享天氣、交通資訊。

淺談人工智能 | 語音識别面面觀

語音識别的優缺點

語音識别使消費者可以通過直接與他們的Google Home,Amazon Alexa或其他語音識别技術工具交談,以實作多任務。通過使用機器學習和複雜的算法,語音識别技術可以快速将您的口語轉換為書面文本。

雖然準确率正在提高,但所有語音識别系統和程式都會出錯。背景噪音可能産生錯誤輸入,可以通過在安靜的房間中使用該系統來避免。單詞聽起來也有問題,但拼寫不同,含義不同-例如,“hear”和“here”。有一天,使用存儲的上下文資訊可以在很大程度上克服這個問題。但是,這将需要比個人計算機中更多的RAM和更快的處理器。

淺談人工智能 | 語音識别面面觀

語音識别的曆史

在過去的五十年中,語音識别技術呈指數級增長。最早可以追溯到1976年,那時計算機隻能了解1000多個單詞。随着IBM繼續開發語音識别技術,在20世紀80年代單詞了解量躍升至大約20,000。

消費者适用的第一款揚聲器識别産品于1990年由Dragon推出,名為DragonDictate。1996年,IBM推出了第一款可識别連續語音的語音識别産品。

淺談人工智能 | 語音識别面面觀

21世紀下半葉推出智能手機後,谷歌在iPhone上推出了語音搜尋應用程式。三年後,Apple推出了Siri,著名的語音識别助手。在過去的十年中,其他幾位技術上司者也開發了更多功能的語音識别軟體,亞馬遜的Alexa和微軟的Cortana-兩者都擔當了響應語音指令的個人助理。

繼續閱讀