天天看點

智能硬體語音互動流程分析“智能音箱”技術詳解

“智能音箱”技術詳解

如今智能語音控制特别火熱,智能音箱、汽車、手機……

君子動口不動手,下面講講如何實作“動口不動手”?

語音控制的流程

聲音采集—>降噪—>語音喚醒—>語音轉文字—>語義了解—>回複文字和指令—>文字轉聲音—>播放聲音

智能硬體語音互動流程分析“智能音箱”技術詳解

舉例:

1、使用者說“天貓精靈,今天天氣怎麼樣?”

2、“天貓精靈”被語音喚醒子產品接收到,并判斷為喚醒詞,然後開始記錄後續的“今天天氣怎麼樣”這段語音,并發送給雲端伺服器。

3、伺服器把這段語音,轉化成文字“今天天氣怎麼樣”,交給語義了解伺服器

語義了解伺服器把“今天天氣怎麼樣”這段文字,拆解成“事件=查詢天氣,時間=今天”這段控制指令回傳給裝置。

4、裝置根據時間和本機地理位置,找天氣伺服器查詢天氣,并獲得天氣的的文本資料“今天要下雨”

5、裝置把“今天要下雨”這幾個字發給文字轉聲音的伺服器,伺服器傳回“今天要下雨”這段聲音,由裝置喇叭播放出來。

(3,4,5這三個動作,可以拆開由各個伺服器單獨完成,也可以由一個伺服器統一完成。)

(車載系統做的比較簡單,主要靠本地識别,落後智能音箱至少5年。)

各子產品的功能

降噪(AEC)通過麥克風陣列,判斷人在哪個方向,增強那個方向的拾音效果。這樣可以在5米之外就能聽到人在說話,足夠一間房間使用了。

還可以在本機播放音樂的時候,濾除麥克風接收的本機音樂,使得智能音箱在播放音樂的時候也能被喚醒。

這就是大家講的雙麥降噪、7麥陣列之類的。

國際上做的比較好的是科勝訊(Conexant),國内做的比較好的是科大訊飛,國内現在有幾十家小公司在做語音降噪算法

(然而這些小公司很快都會挂掉,原因見文章後面)

智能硬體語音互動流程分析“智能音箱”技術詳解

喚醒智能音箱的麥克風在7x24小時接收外部聲音,持續分析這些聲音,看看是否能檢測到喚醒詞(例如前面講的“天貓精靈”),一旦檢測到了喚醒詞,就把之後的語音傳給語音識别伺服器。

國際上喚醒詞做的最好的是Sensory,國内的主要是訊飛等語音識别公司。

像智能手表上,一般會有一顆專門的低功耗晶片,内置喚醒詞算法,随時打開等着你說話。不需要占用CPU資源,非常省電。

語音轉文字(ASR)語音并不能直接拿來分析成意思,必須要轉化成文字。這是個成熟的技術了,以前還會有在現在大資料算法的輔助下,結合上下文了解,已經可以非常準确的把聲音變成文字了。

語義了解(NLP)自然語言處理,就是把人的語言轉化成機器能夠了解的數字,分解開,并回複響應的語言。

大家覺得智能音箱是“智障音箱”,主要還是因為這裡,現有的技術隻能做到固定的問答,而無法像人類一樣思考。

再加上人類語言有大量的不同表達方式和歧義語句,了解錯誤的地方也會非常多。例如“殺死獵人的狗”,殺死的是獵人,還是狗?

隻有NLP語義處理能夠接近人類的了解了,機器的語音互動,才真的能讓使用者正常對話。

文字轉語音(TTS):這個大家都很熟悉了,不管是機械感強烈的訊飛,還是越來越俏皮的siri,或是高德地圖的志玲姐姐聲音,都是依靠TTS語音合成,把文字變成聲音的。

做這個語音合成的非常多,早些年有放在本機端的,現在一般都是雲端來合成。

主流架構

經典架構:降噪用專門的DSP晶片

主要用Android平台,

語音識别、語義識别、語音合成三個放在雲端

控制和顯示放在本地

現有的國産智能音箱,全都是這個架構的

智能硬體語音互動流程分析“智能音箱”技術詳解

做的最好的:Amazon Echo全球銷量最大的,是Amazon Echo系列,幾年時間賣了3000萬台,直接導緻國内2017年智能音箱公司大量湧現。

Echo和其他智能音箱最大的差別是:所有的控制,都放在雲端了。哪怕你家的WIFI台燈和Echo是在同一個區域網路,這個燈也是從雲端直接控制的。

把控制也放到雲端的好處是:智能音箱本身不需要更新任何程式,就可以支援所有的智能硬體。

智能硬體語音互動流程分析“智能音箱”技術詳解

做的最簡單的:Google Android ThingsAndroid Things在2018CES剛釋出了新版本,做的比Amazon更省事,把前端語音降噪都放在雲端去做了。算法更容易更新,随着時間的發展,能夠提供比本地降噪更優秀的降噪效果。

還能夠降低硬體要求,進而降低硬體成本。

智能硬體語音互動流程分析“智能音箱”技術詳解

智能音箱發展趨勢

沒屏的降成本,越做越簡單帶螢幕,做複雜互動,作為中樞多個房間,分布式拾音網絡雲端化,能放在雲端的服務都會放上去。做降噪算法,會比較難活下去傳統語音識别企業,被網際網路打壓(寫太長了大家不愛看,具體原因後面再講。喜歡看的求個“贊”,鼓勵一下小編繼續敲鍵盤吧~~)

總結

智能音箱,美國賣的很好,國内賣的不怎麼樣。

雖然不知道誰能一統江湖,但以後一定是大勢所趨。

中國賣的不太好的原因,主要是漢語太複雜,稍微調戲一下,智能音箱很容易就變成了智障音響了。

還有一個原因是,很多中國人生性喜歡和人交流,不喜歡和機器交流。明知道是個機器,還“天貓精靈”“叮咚叮咚”“小愛同學”之類的叫個不停,是不是感覺自己好傻?

本文轉自:https://blog.csdn.net/weixin_42082222/article/details/80529850

繼續閱讀