“智能音箱”技術詳解

如今智能語音控制特别火熱，智能音箱、汽車、手機……

君子動口不動手，下面講講如何實作“動口不動手”？

語音控制的流程

聲音采集—>降噪—>語音喚醒—>語音轉文字—>語義了解—>回複文字和指令—>文字轉聲音—>播放聲音

智能硬體語音互動流程分析“智能音箱”技術詳解

舉例：

1、使用者說“天貓精靈，今天天氣怎麼樣？”

2、“天貓精靈”被語音喚醒子產品接收到，并判斷為喚醒詞，然後開始記錄後續的“今天天氣怎麼樣”這段語音，并發送給雲端伺服器。

3、伺服器把這段語音，轉化成文字“今天天氣怎麼樣”，交給語義了解伺服器

語義了解伺服器把“今天天氣怎麼樣”這段文字，拆解成“事件=查詢天氣，時間=今天”這段控制指令回傳給裝置。

4、裝置根據時間和本機地理位置，找天氣伺服器查詢天氣，并獲得天氣的的文本資料“今天要下雨”

5、裝置把“今天要下雨”這幾個字發給文字轉聲音的伺服器，伺服器傳回“今天要下雨”這段聲音，由裝置喇叭播放出來。

（3，4，5這三個動作，可以拆開由各個伺服器單獨完成，也可以由一個伺服器統一完成。）

（車載系統做的比較簡單，主要靠本地識别，落後智能音箱至少5年。）

各子產品的功能

降噪（AEC）通過麥克風陣列，判斷人在哪個方向，增強那個方向的拾音效果。這樣可以在5米之外就能聽到人在說話，足夠一間房間使用了。

還可以在本機播放音樂的時候，濾除麥克風接收的本機音樂，使得智能音箱在播放音樂的時候也能被喚醒。

這就是大家講的雙麥降噪、7麥陣列之類的。

國際上做的比較好的是科勝訊（Conexant），國内做的比較好的是科大訊飛，國内現在有幾十家小公司在做語音降噪算法

（然而這些小公司很快都會挂掉，原因見文章後面）

智能硬體語音互動流程分析“智能音箱”技術詳解

喚醒智能音箱的麥克風在7x24小時接收外部聲音，持續分析這些聲音，看看是否能檢測到喚醒詞（例如前面講的“天貓精靈”），一旦檢測到了喚醒詞，就把之後的語音傳給語音識别伺服器。

國際上喚醒詞做的最好的是Sensory，國内的主要是訊飛等語音識别公司。

像智能手表上，一般會有一顆專門的低功耗晶片，内置喚醒詞算法，随時打開等着你說話。不需要占用CPU資源，非常省電。

語音轉文字（ASR）語音并不能直接拿來分析成意思，必須要轉化成文字。這是個成熟的技術了，以前還會有在現在大資料算法的輔助下，結合上下文了解，已經可以非常準确的把聲音變成文字了。

語義了解（NLP）自然語言處理，就是把人的語言轉化成機器能夠了解的數字，分解開，并回複響應的語言。

大家覺得智能音箱是“智障音箱”，主要還是因為這裡，現有的技術隻能做到固定的問答，而無法像人類一樣思考。

再加上人類語言有大量的不同表達方式和歧義語句，了解錯誤的地方也會非常多。例如“殺死獵人的狗”，殺死的是獵人，還是狗？

隻有NLP語義處理能夠接近人類的了解了，機器的語音互動，才真的能讓使用者正常對話。

文字轉語音（TTS）：這個大家都很熟悉了，不管是機械感強烈的訊飛，還是越來越俏皮的siri，或是高德地圖的志玲姐姐聲音，都是依靠TTS語音合成，把文字變成聲音的。

做這個語音合成的非常多，早些年有放在本機端的，現在一般都是雲端來合成。

主流架構

經典架構：降噪用專門的DSP晶片

主要用Android平台，

語音識别、語義識别、語音合成三個放在雲端

控制和顯示放在本地

現有的國産智能音箱，全都是這個架構的

智能硬體語音互動流程分析“智能音箱”技術詳解

做的最好的：Amazon Echo全球銷量最大的，是Amazon Echo系列，幾年時間賣了3000萬台，直接導緻國内2017年智能音箱公司大量湧現。

Echo和其他智能音箱最大的差別是：所有的控制，都放在雲端了。哪怕你家的WIFI台燈和Echo是在同一個區域網路，這個燈也是從雲端直接控制的。

把控制也放到雲端的好處是：智能音箱本身不需要更新任何程式，就可以支援所有的智能硬體。

智能硬體語音互動流程分析“智能音箱”技術詳解

做的最簡單的：Google Android ThingsAndroid Things在2018CES剛釋出了新版本，做的比Amazon更省事，把前端語音降噪都放在雲端去做了。算法更容易更新，随着時間的發展，能夠提供比本地降噪更優秀的降噪效果。

還能夠降低硬體要求，進而降低硬體成本。

智能硬體語音互動流程分析“智能音箱”技術詳解

智能音箱發展趨勢

沒屏的降成本，越做越簡單帶螢幕，做複雜互動，作為中樞多個房間，分布式拾音網絡雲端化，能放在雲端的服務都會放上去。做降噪算法，會比較難活下去傳統語音識别企業，被網際網路打壓（寫太長了大家不愛看，具體原因後面再講。喜歡看的求個“贊”，鼓勵一下小編繼續敲鍵盤吧~~）

總結

智能音箱，美國賣的很好，國内賣的不怎麼樣。

雖然不知道誰能一統江湖，但以後一定是大勢所趨。

中國賣的不太好的原因，主要是漢語太複雜，稍微調戲一下，智能音箱很容易就變成了智障音響了。

還有一個原因是，很多中國人生性喜歡和人交流，不喜歡和機器交流。明知道是個機器，還“天貓精靈”“叮咚叮咚”“小愛同學”之類的叫個不停，是不是感覺自己好傻？

本文轉自：https://blog.csdn.net/weixin_42082222/article/details/80529850

智能硬體語音互動流程分析“智能音箱”技術詳解

“智能音箱”技術詳解

繼續閱讀

廣汽豐田智能電混雙擎全面換新，三電系統-電池電機電控，全面更新。第八代凱美瑞基于TNGA的架構打造，全系标配LED鷹眼式

#奧德賽幻夜套件品味登場#全新奧德賽優點多多搭載本田第三代i-MMD雙電機混合動力系統EV、混合動力、發動機三種行駛模式

#插混vs非插混，哪種才是真省心#豐田是全球量産混合動力技術車型最早，累計産量最高的汽車品牌。廣汽豐田第八代凱美瑞智能電

#暢聊數位新品#榮耀全新一代折疊旗艦榮耀MagicV2：科技創新與實用性相結合榮耀作為一家知名的手機品牌，一直以來都在不

#智能語音小夜燈#智能家居#usb小台燈#小夜燈氛圍燈#好物推薦🔥會變色的語音小夜燈，能聽得懂人說話，🉑吊挂🉑台式

話說，豪華品牌對于智能化的涉獵就這嗎？新款的奔馳GLE智能語音助手也就相當于一個語音遙控器而已，反而是價格更低的蔚來全新

#智能語音小夜燈#爆款熱賣中

外呼系統是如今商務通訊的關鍵工具之一，它憑借其強大功能幫助企業提高銷售效率和客戶滿意度。無論你是銷售人員、市場專員還是客

818電視選購指南，避免踩坑。4K大屏高刷防抖智能分屏。購買電視是需要謹慎考慮的事情，因為如今電視行業競争激烈，各種包裝

818電視選購指南！掌握以下技巧，避免踩坑！電視市場競争激烈，各種營銷手段層出不窮，選購時需注意以下幾點。·首先，要選擇

擁抱未來，智能語音音箱的革新之路，不為人知的秘密在這裡

智能語音互動的背後：算法如何“聆聽”萬物之聲

智能語音小夜燈

【新到車型】雷克薩斯2020款ES200豪華版【上牌時間】2021年3月【行駛裡程】4.7萬KM【4S店指導價】30.9

android源碼-智能語音輸入查詢天氣app