天天看點

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

天貓精靈X1的更新版X2沒有預期出現,而人機互動系統AliGenie更新到最新的2.0版本,功能強大。

3月22日,阿裡巴巴人工智能實驗室總經理淺雪(陳麗娟)釋出AliGenie2.0系統,它最大的改進是在1.0的基礎上增加了視覺能力,并引入多模态互動能力,隻需要另外增加一些輔助裝置,就能讓天貓精靈具備視覺能力。同時,淺雪還宣布,天貓精靈銷量已經超過200萬台。

四年前,亞馬遜推出Echo,将AI音箱大戰引發;去年,亞馬遜又推出帶螢幕的音箱Echo Show,音箱視覺化、螢幕化成為一種趨勢。除了AliGenie2.0外,京東叮咚Play以及百度即将釋出的“小度在家”都具備視覺能力,AI音箱終于要拼視覺了。

AliGenie2.0:增加圖像識别、物體檢測、人臉識别能力

去年5月,阿裡人工智能實驗室(AI Labs)釋出天貓精靈X1,内置AliGenie1.0系統。

AliGenie1.0已經建立了超強的知識體系,在這個知識體系當中擁有1個億的實體了解能力,建構了近10億的關系。同時AliGenie1.0算法也在更新,阿裡AI Labs釋出了一個全新的序列标注模型,這個序列标注模型能解決有自動糾錯的能力,可以幫助語音了解有更強的容錯性。AliGenie還具備主動學習能力,每一次跟使用者的互動過程當中,系統都會自動完善。

淺雪釋出的AliGenie2.0系統,是在1.0的基礎上形成具備視覺、語音等多模态互動能力的新一代的人機交流系統。它不僅會具備聽覺能力,還有視覺能力和情感回報能力。

其中,視覺能力中又分為圖像識别、人臉識别、物體檢測三大技術。

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

同時,阿裡AI Labs還把語音能力和視覺能力進行了融合,形成多模态互動的過程,進而建構一個更聰明的人機交流系統。

淺雪認為,人機互動遠遠不僅語音,“我們覺得在未來人機互動不僅有聽覺,還有視覺、嗅覺,以及有更強的情感回報能力。”

阿裡AI Labs去年在自然語言了解等方向投入諸多,并在去年10月宣布引入微軟亞洲研究院首席研究員聶再清博士、谷歌 Tango 和 DayDream 項目技術主管李名楊博士。目前聶再清負責阿裡AI Labs北京研發中心的各項研發工作,并重點突破知識圖譜和自然語言了解這兩個領域。李名楊任 AI Labs 機器視覺傑出科學家。

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

阿裡AI Labs北京研發中心負責人聶再清

在接受專訪時,聶再清表示,天貓精靈具備情景感覺、主動學習能力。自然語言了解很大的難點是因為自然語言的多樣性,一句話可能有無數的意思,這就需要通過大資料,讓開發人員跟大資料的互動主動進行挖掘,主動找到路徑讓開發人員跟使用者一起互動,把語言的各種意思都完善了,才能讓機器聽懂,這也是阿裡AI Labs 技術上的優勢。

阿裡AI Labs做硬體的邏輯:親手打造更懂跨界,AliGenie系統将來或開放

雖然天貓精靈X2沒有釋出,但更小巧尺寸的天貓精靈曲奇、天貓路由器、天貓魔屏 S1 無屏電視以及周邊配件等諸多硬體同時亮相。

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器
阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

阿裡最擅長做平台,這次一口氣釋出多款硬體産品,并非要轉變路線,其背後的邏輯非常現實:做硬體比軟體難的多。

淺雪說,阿裡AI Labs在做天貓精靈之前,就已經嘗試跟行業的一些合作夥伴共同研發硬體,但在合作過程中碰到了非常多的挑戰,畢竟軟硬體這兩個不同領域跨界合作,互相之間并不清楚裡面存在的問題。

一般來說,如果自己隻做服務、系統,交給第三方做硬體的話,不容易掌握品控、制造周期等環節,這也是AI Labs去年自己着手打造硬體的原因。

不過,阿裡做平台的基因沒有變。淺雪希望AliGenie這個系統将來做的更好,讓硬體的合作夥伴可以做(相關産品),應用AliGenie這套技術。

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

此外,淺雪還宣布,現在天貓精靈的銷量已經突破200萬台。

百箱大戰繼續更新:增加視覺能力,實作更多場景

2014年亞馬遜的Echo問世,點燃了AI音箱大戰的導火索,谷歌Home、蘋果的Home Pod以及國内的阿裡天貓精靈、小米的小愛同學、獵豹AI音箱等紛紛入場;去年亞馬遜釋出帶螢幕的音箱Echo Show,将AI音箱帶入另一個競争階段:視覺化。

雖然這次天貓精靈并沒有推出帶螢幕的音箱,但AliGenie 2.0将視覺能力落地,推出了“精靈火眼”:外置一台XHolder(類似手機支架),放置裝有天貓精靈手機APP的手機後,能夠讓天貓精靈具備視覺認知能力。

阿裡釋出AliGenie2.0系統,“百箱大戰”用上視覺武器

這種做法類似當年谷歌在推出VR産品時,外設的Google Cardboard,能夠在實作視覺功能的同時,最大限度節省成本。

但“友商”們更激進。在今年CES上,京東智能音箱叮咚Play亮相,這款産品配備了8英寸的液晶顯示屏,能夠實作視訊通話、人臉識别等功能。百度近日也宣布,将在下周釋出“小度在家”智能視訊音箱。

進入2018年,視覺化、螢幕化讓“百箱大戰”進入到新的競争階段。與單純的語音音箱而言,加入了視覺功能的音箱能夠實作更多場景。以“精靈火眼”為例,阿裡與出版業合作,通過圖像識别書本後,“精靈火眼”能夠實作智能語音互動、聲音朗讀,幫助兒童讀書、識字,商業化空間巨大。

原文釋出時間為:2018-03-23

本文作者:張乾

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”微信公衆号

繼續閱讀