天天看點

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

1、國内外巨頭相繼進入語音互動領域

去年10月份,intel與科大訊飛宣布合作共同研發ai晶片,該晶片将麥克風陣列、遠場語音識别等功能內建到soc當中,形成完整的遠場語音互動鍊條,此次合作正式宣告intel也将進入智能語音互動市場。

此前,科大訊飛的麥克風陣列等硬體一直委托國内的全志科技研發,全志科技顯然是arm陣營的追随者。然而,根據intel内部人員的透露,科大訊飛對于和國内晶片廠商的合作并不完全滿意,語音互動市場競争激烈,而國内初創公司如聲智科技等,在麥克風陣列技術和方案方面帶給訊飛不小的壓力,這近一步促成了科大訊飛與國外晶片巨頭intel的聯盟,希望與intel聯合的晶片計劃從根本上扭轉這個趨勢。

今年2月份,百度宣布全資收購渡鴉科技,創始人呂騁攜團隊正式加盟百度,并出任百度智能家居硬體總經理,向百度集團總裁和首席營運官陸奇彙報。陸奇同時宣布原度秘團隊更新為度秘事業部,加速人工智能布局。陸奇指出,憑借語音與對話技術的優勢,百度在引領新一代人機互動平台上将擁有巨大的機會,自然語言和其他智能互動方式有可能出現在從手機到家居的每一個裝置中。百度通告還顯示,百度進階總監景鲲和首席架構師朱凱華将擔任事業部的核心管理層。

而近日,據彭博社報道,華為在深圳有一個超過100名工程師的團隊正在開發語音助手服務,開發工作目前還處于早期階段。華為語音助手項目目标宏大,瞄準蘋果siri、亞馬遜alexa和google assistant。華為語音助手定位中文,面向國内使用者,在海外市場将繼續與谷歌和亞馬遜合作。

同樣,三星在語音助手領域更是積極布局,2016年10月份收購了viv,同時以80億美元收購哈曼國際,随後又聯合gpu巨頭英偉達投資soundhound。soundhound是一家緻力于語音識别與搜尋的初創科技公司,最初要服務是提供和音樂有關的資訊。

facebook 創始人紮克伯格也在2016年自己花費 100 小時完成了 ai 管家 jarvis 的開發。紮克伯格及家人可用語音向手機或計算機下達語音指令,實作燈光、溫度、電器、音樂和安防裝置的控制操作。jarvis系統具備的學習功能可使其識别主人的偏好模式、學習新詞彙與相關概念。

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

随着亞馬遜、谷歌、微軟相繼在語音互動裝置上發力,市場已經看到了這一領域的無限潛力。語音作為人類交流最自然的方式,比文字和圖像更具天然的優勢。尤其是亞馬遜echo的成功,把人們帶到了了無屏時代的門檻。日前,亞馬遜創始人貝佐斯接受專訪提到,alexa已經成為亞馬遜的核心戰略之一,其估值可能接近百億美元。

而蘋果在這場戰争中則另辟蹊徑,選擇從智能耳機入手。近日市場調研公司slice intelligence釋出的美國無線耳機市場線上銷售情況報告也證明了這一點。短短的一個月内,蘋果airpods就異軍突起占據了美國無線耳機26%的市場佔有率。該報告顯示,airpods發售前,無線耳機市場基本由beats和bose占據主導地位;但在airpods發售後,市面上前十大無線耳機品牌中,除了bose的市場佔有率有所增長外,其他品牌地市場占有率均不同程度地縮水,其中甚至包括曾經稱霸無線耳機市場多年的airpods“同門師兄”beats。

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

至此,幾乎國内外所有it巨頭都相繼進入了語音互動市場,包括谷歌、蘋果、微軟、亞馬遜、facebook、三星、阿裡、百度、騰訊、華為、科大訊飛等等,國内也陸續出現了思必馳、雲知聲、聲智科技、三角獸、蓦然、rokid等創業公司,語音助手成為了非常火爆的話題,幾乎掀起了全行業研究亞馬遜echo的熱潮。

2、語音互動市場趨勢和規模已被普遍認可

voicelabs近日釋出了《2017年語音報告》(the

2017 voice report)。報告對亞馬遜alexa和谷歌google

home的開發者和消費者進行了調查,總結了目前的智能語音市場,并對2017年的趨勢做出預測。2017年,語音産業結構将按照硬體産品、ai軟體、語音應用apps、生态系統服務相結合的架構繼續向前發展。預計2450萬台以語音為主要互動方式的智能硬體産品發貨,市場總量将達到3300萬台,市場規模超過200億美元。而對各種智能語音助手以及語音互動app而言,競争将更加激烈。

亞馬遜于

2014 年底推出智能音箱 echo,如今已成為美國使用最廣的智能家居産品。根據 cirp的報告,自 2014 年 11 月釋出到 2017 年

1 月,亞馬遜 echo 系列(包括 echo、echodot 和 tap)使用者已達到 820 萬,同比增長 2 倍,較 2016 年 11

月時的資料增長 60%。而公司 2017 年的銷量目标是 1000 萬。銷量激增的背後是 echo 正迅速從早期使用者 的小衆圈子進入大衆市場。

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

從産品銷量,技術進展,到相關創業公司的興起,以及資本市場的頻繁運作,種種迹象表明,智能語音互動市場的趨勢已經明朗,語音是ai領域中最先落地的應用之一。這從電子技術發展曆程中也可參考類比,以語音為核心的電話是20世紀最偉大的發明之一,而其後相當長的時間才出現以視訊為主的電視,行動電話同樣遵循了這個規律。從實體層面來看,語音信号無論是從資料量還是計算量方面都低于視訊信号,這在趨勢剛興起的時候,更容易适用于遠未标準化的硬體體系,但是随着技術的發展,多傳感的融合仍然是根本趨勢。

3、語音互動的全球競争态勢初顯

voicelabs 預測,亞馬遜或谷歌今年會通過類似手機上的推送通知來加強新應用的分發,并試圖解決使用者留存率低的問題,2017 年也将是語音應用貨币化的起步元年。當智能語音助手充分了解“主人”需求之後,應有能力在合适的時間主動提示合适的應用,既提高使用者的使用價值,又解決了語音應用的分發留存問題。

從全球來看,亞馬遜echo最著名也最有競争力的對手當屬谷歌的google

home。google

home自2016年推出以來,一直與echo明争暗鬥,争搶智能家居中樞的角色。通過亞馬遜和谷歌在美國“超級碗”投放的電視廣告就能體會到這種競争的激烈,兩家不約而同地打出了溫馨家庭“懶生活”牌,突出産品智能管家的功能。

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

美國市場調查機構slice intelligence近日釋出的一份報告,對線上購買echo消費者的性别、年齡、購物習慣等特征進行了統計。某種層面上,這意味着echo在消費者眼中不再是隻有極客和技術控才感興趣的“玩意兒”,而是獲得廣泛認同的大衆消費品。當電子消費品獲得了女性使用者的認可,并且呈現出女性消費者占據市場購買主導優勢後,産品将逐漸成為成熟品類,并迅速出現銷量攀升态勢。

google已經意識到與amazon的差距,盡力通過收購等方式快速彌補這種差距。2017年1月初,谷歌宣布收購limes audio,并表示将會把limes audio內建到自己的視訊會議解決方案中,為客戶提供低成本、高品質的音頻體驗。「 limes audio總部位于瑞典于奧默,成立于2007年,業務重心為提高雙向語音通話系統的語音品質。limes audio專注語音信号處理,該公司開發的truevoice音頻軟體套件通過回聲消除、環境降噪及自動混音等技術,改善通信中的語音品質。」

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

反觀國内,類似echo的産品始終沒有吸引到消費者的眼球,一般來說,國内相比國外市場有6-18個月的延後,但是以國内的技術水準來看,可能需要的時間更長一些。國内在語音助手方面的布局略顯不足。科大訊飛雖然從技術鍊條上最為完善,也推出了類似echo的叮咚産品,但是市場反響一直沒有達到預期。

百度、阿裡、騰訊、360也極大投入做了布局,但是技術鍊條仍不完善,産品和服務始終沒有很好的落地。即便在技術環節,國内活躍的創業公司相比國外也少了很多,語音識别領域主要還是雲知聲和思必馳,nlp領域主要是三角獸、蓦然、竹簡等,而融合語音感覺和語音識别主打底層邏輯的創業公司還僅有聲智科技一家,顯然技術也制約了國内智能音箱的産品進度。

還有一個值得關注的消息,華爾街日報援引消息人士的說法,亞馬遜和谷歌都在研究為其智能音箱增加語音通話功能,該功能預計将于今年推出。如果這一計劃能夠成功實施,無疑将進一步提升智能家居的體驗。

4、語音互動将會帶來哪些根本性變化?

從目前amazon、google、apple的市場實踐來看,智能語音互動至少在三個領域帶來了根本性的變化:

智能語音互動将改變音樂分發的格局

音樂行業是亞馬遜還沒有征服的一個領域,亞馬遜早期在cd零售上的領頭羊地位因為mp3盜版的影響而不複存在。在音樂數字下載下傳的年代,亞馬遜在音樂銷售上被蘋果的itunes商店超越。在2005年亞馬遜進行過一次音樂流媒體的内部嘗試,但是在産品正式釋出前就被叫停了。這給市場留下了一個空白,而現在這個市場被spotify和apple

music占據,它們各自有着4000萬和2000萬的使用者。亞馬遜為了抓住更多耳朵的最新嘗試是在2016年10月釋出的amazon music unlimited,這是一項基于訂閱的流媒體服務。

亞馬遜的數字語音助手alexa将會是決定amazon music unlimited能否成功的關鍵因素。alexa使用的精巧的語音識别算法在過去幾年中逐漸成為了行業中的領先技術。得到這樣的領頭羊地位後,貝佐斯努力嘗試将alexa推向更多的應用領域最開始是通過它的亞馬遜echo音響裝置,而後又把alexa內建在小型化後的echo

dot中。echo

dot一舉成為了亞馬遜在過去一個假期中銷售表現最好的産品。貝佐斯的狂熱也傳染給了音樂行業,許多音樂節的高管們都對這些裝置贊不絕口。

Alexa估值近百億美元,AI巨頭為何在語音互動市場搶奪賽道?

蘋果由于意識到siri在遠場技術與alexa的差距,選擇以近場語音互動為主的airpods智能耳機為切入點發力,相比音箱,耳機的使用率更高。所謂的智能家居,總是寄托于“家”的。一個家庭或許隻需要一台智能音箱,但耳機則是更個人化的物品,每個家庭成員都可能擁有不止一副耳機。而且,耳機作為一種已經被廣泛接受的可穿戴裝置,有更多更自然的應用場景。耳機的便攜性使其更有潛力成為一種“無縫陪伴式”的智能産品。airpods最為核心的功能也是利用siri增強蘋果音樂分發的能力。

從亞馬遜和蘋果的實踐角度來看,alexa成為了音樂分發的重要管道,這對于國内仍然在困境之中的線上音樂行業是一個值得深入思考的事情。

語音互動将會成為下一代搜尋的核心

毫無疑問,通過語言交流擷取知識是人類最有效的學習方式。搜尋從pc時代的搜尋框到移動時代的app,其實都是在向着精準搜尋的方向發展,而語音互動天生就有這兩種優勢。從amazon

echo和google

home的使用者群體分析,小朋友更是喜歡這種知識學習方式,而習慣就是這樣逐漸被改變。google是最早認識到這一點的巨頭,典型的舉措便是把最有現金流的google搜尋納入到母公司alphabet中。

語音互動可能會改變社交領域的格局

國内外社交領域似乎很難再有新的變化,但是随着amazon

home的崛起,使用者已經強烈建議增加語音通話功能,蘋果的airpods顯然天生就具有了通話的功能。這就産生了一個問題,amazon和google會接入現有的社交軟體嗎?蘋果是不是也要通過airpods繼續強化自家軟體的社交能力?至少,這也是值得國内各大巨頭深入思考的問題。

5、語音互動技術和市場還有哪些不足?

國内普遍不太看好智能語音互動市場的原因其實很簡單:體驗不好,市場還早。的确,目前的語音互動技術,特别是遠場語音互動技術還沒有完全成熟,就連echo至多也就是80分的水準。這主要是由于語音互動涉及了非常複雜的技術鍊條,包括了聲學處理、語音識别、語義了解和語音合成等核心技術。

聲學處理主要是仿真人類的耳朵,保證機器能夠聽得準真實環境下人的聲音,語音識别則是把聽到的人聲翻譯成文字,語義了解則分析這些文字的意義,語音合成就把機器要表達的文字翻譯成語音。這四項技術雖然獨立發展,但實際上無法割裂,同時在其他技術的配合下,才能形成一次語音互動的完整鍊條。

從目前的技術水準來看,這四項技術已經達到了商業初級可用的階段,但是距離我們滿意還應該有3-5年時間的距離。即便是被國内幾家公司号稱最為成熟的語音識别,其實也處在近場到遠場的技術更新期。

以siri為代表的近場語音識别已經發展了60多年,特别是在2009年以後借助深度學習有了實質性提高,但是正如紮克伯格所說的,當真正産品落地的時候,我們發現使用者真正需要的卻是類似echo所倡導的遠場語音識别。顯然,這又是一個嶄新的技術領域,因為拾音距離的擴大帶來的問題不僅僅是語音信号的衰減,而且還帶來了複雜的真實環境以及複雜的使用者習慣。

以siri為代表的近場語音識别要求必須是低噪聲、無混響、距離聲源很近的場景,比如使用者總是要對着手機講話才能獲得符合近場語音識别要求的聲音信号,同時還要求使用者滿足标準發音,其識别率才有可能達到95%以上。但是,若聲源距離距離較遠,并且真實環境存在大量的噪聲、多徑反射和混響,導緻拾取信号的品質下降,這就會嚴重影響語音識别率。同樣的,我們人類在複雜遠場環境的表現也不如兩兩交耳的竊竊私語。

通常近場語音識别引擎在遠場環境下,若沒有聲學處理的支援,比如麥克風陣列技術的适配,其真實場景識别率實際不足60%。而且,由于真實場景總是有多個聲源和環境噪聲疊加,比如經常會出現周邊噪聲幹擾和多人同時說話的場景,這就更加重了語音識别的難度。因為目前的語音識别引擎,都是單人識别模式,無法同時處理多人識别的問題。

遠場語音互動技術正在逐漸成熟,amazon通過echo已經證明了遠場語音互動已經邁過使用者可接受的門檻,而國内的科大訊飛和聲智科技也在發力這個領域。

從市場層面來看,語音互動毋庸置疑是繼鍵盤、滑鼠和觸摸屏之後的主流互動方式,但是距離真正走入國内市場還總是差那麼一點。技術鍊條僅僅是其中一個小部分原因,從戰略認知、資金投入到需求挖掘,國内公司都欠缺了很大的火候,而國内各大巨頭更應該在戰略決心和技術鍊條上發力。智能語音互動的全球競争之中,國内的ai巨頭似乎才剛剛蘇醒。

本文作者:陳孝良

繼續閱讀