天天看點

市面主要遠場語音互動技術架構

為什麼Google Home要采用雙麥方案,而且大部分智能音箱才用環形六麥?事實上,這是由各家不同的技術架構決定的,目前市面上主要存在三種遠場語音互動技術架構。

1、以Google為代表的純雲端技術架構

首先就是以Google為代表的純雲端技術架構,Google并非不想采用麥克風陣列,因為陣列相比雙麥方案具有了波束形成的功能,自然就擁有了更好的噪聲和去混響能力,當距離較遠或者環境複雜的時候依然能夠保證遠場識别率。但是由于麥克風陣列涉及了前端硬體,這并非Google所擅長,是以Google就希望能通過雲端機器學習的方式來達到類似功能。

但是麥克風陣列的陣元較多,産生的資料容量太大,而目前的網絡上傳帶寬嚴重不足,是以隻能權衡選擇更少的麥克風。實際上若采用前端方案,大部分場景下單麥克風方案也能達到雙麥方案的性能。當然多一路麥克風信号對于雲端算法來說也是很重要的。

2、以科勝訊為代表的純前端技術架構

其次就是以科勝訊為代表的純前端技術架構,雙麥降噪實際上是非常成熟的方案,在智能手機和藍牙耳機上已經廣泛應用,但是直接應用到語音互動則需要大量适配工作。純前端方案的優點就是容易內建到晶片上,缺點就是很難更新以及擴充,這恰好與人工智能不斷疊代的趨勢不太相容,也是目前這種方案無法流行的主要原因。

3、以Amazon為代表的前端+雲端方案

最後就是以Amazon為代表的前端+雲端方案,這種方案是把算法分别放置到前端和雲端,根據具體場景可以調配優化,更容易優化性能并擴充功能。這種方案考慮了麥克風陣列與喚醒和識别技術一體化的問題,由于喚醒和識别嚴重依賴麥克風陣列的算法處理效果,實際上這三種技術是無法完全分割的,特别是麥克風陣列和喚醒技術更是渾然一體。

繼續閱讀