天天看點

我們來談談那些智能家居裡的語音對話裝置

amazon的echo意外獲得了成功之後,現在大家都在跟風,就連大廠google也在前幾天釋出了自己的google home,其實就是一個echo的翻版。其實這兩個産品的最大的特色并不是語音對話,而是更自然的互動,也就是遠場的語音識别。

語音對話從apple的siri開始,那是很久以前的事了,那一年喬布斯還在世。現在在智能手機裡面已經是标配了,我個人覺着國外google做的好一點,microsoft和apple也還可以,amazon倒是後起之秀;國内訊飛和百度差不多,騰訊和阿裡都在自己研發類似技術,還有一些小公司也在做。除了語音助手,智能電視遙控器裡面也很普及,比如按住小米電視遙控器的home鍵,然後就可以說要看什麼電視劇或者電影,系統就會幫你找到。

但是不論是手機上的語音助手還是電視等裝置的遙控器,使用者對于語音的接受度并不高,隻有百分之幾的使用率。

我覺着原因第一是體驗不夠好,尤其是在國内,對話的體驗很差,經常上句不接下句,做個demo還可以,日常用經常要罵娘。

第二是有可以替代的體驗,手機上可以觸摸,電視上可以上下左右選擇,還都有很好的螢幕的視覺回報,語音并不是必須的。

那為啥同樣的技術放在智能家居裡面大家就覺着這個體驗好了呢,我猜有兩個原因:

一是智能家居使用者基數少,以能折騰的玩家為主,對于語音的接受度高,使用者的學習能力也強,就算是體驗不好使用者也能自我糾正。

二是遠場語音識别的體驗已經可用了,而音箱這樣的裝置并沒有别的輸入輸出形式,隻能用語音,沒有比較也就沒有互相傷害。

遠場語音識别主要靠的是硬體,靈敏度更好的麥克風陣列,可以定向識别語音,強大的噪聲消除算法,可以在有環境噪音的時候分辨出人聲。這類硬體成本目前還在人民币一百元以上,而普通的一個麥克風也就幾塊錢成本,這也就是為什麼帶遠場語音識别的裝置都比較貴了。即使是有了好的硬體,也要做一些體驗的優化,比如喚醒詞,音節越多對比越大越好,amazon的echo的喚醒詞是“alexia”,google home的喚醒詞是“ok google”,這樣才能保證高的準确率和低的誤識别率。

插播廣告,小米生态鍊企業上海創米做了一個高端的攝像頭,名字叫小白。設計的時候也有語音識别功能,放了兩個麥克風,用的是訊飛的語音識别算法,已經是國内最好得了。實際測試的時候發現,隻能在一米以内才能把提體驗做好。喚醒詞最早的時候是“小白”,實測發現誤識别率很高,後來改成了“小白小白”,好了一些。鑒于它是一個攝像頭,最終改成了“小白看過來”,它聽到後會把頭轉過來,還是很萌的,有這款産品的可以試試。研發團隊正在研發二代,估計會加入遠場語音識别,價格也會高一兩百塊錢。

廣告結束,說一下我的一點淺見。

這類語音對話裝置隻是一個開始,将來也未必是音箱這種形态,關鍵是技術成熟,成本使用者可以接受。這樣你可以對着空調說話,對着燈說話,它們都會聽你的,仿佛這些裝置都有了生命。而使用者也很自然的接受這些裝置是可以對話的,那個時候才是語音對話裝置的爆發期。

使用者對于這類體驗的向往已經有了上千年,也展現在很多文學作品裡面。比如《白雪公主》,裡面的女王有一個魔鏡,那就是一個非常典型的語音識别裝置,喚醒詞是“魔鏡、魔鏡告訴我”,可能當時的技術還不太成熟,要這麼多音節才能喚醒。魔鏡背後是強大的搜尋能力,比如“誰是世界上最美麗的女人”,現在google已經有那麼個意思了,強大的深度學習能力,回答這個問題是小菜一碟。除了搜尋,還有其它服務的整合,比如百度還能給你送外賣。

本文轉自d1net(轉載)

繼續閱讀