天天看點

Siri 将迎來大幅度更新,谷歌等公司或難望其項背

Siri 将迎來一次大幅度更新。

多虧了去年收購的英國公司 VocalIQ,蘋果現在能夠使它的數字助手擁有一次質的飛躍。根據了解 VocalIQ 産品的相關資訊源,VocalIQ 比 Siri 的幾個主要競争對手都要更加穩定和強大,包括 Google Now, Alexa, 和 Cortana。

Siri 将迎來大幅度更新,谷歌等公司或難望其項背
在被蘋果收購前,VocalIQ 将其産品與 Siri, Google Now, Cortana 等進行測試,結果十分驚人。許多語音指令都又長又複雜,而其他助手很難抓取所有重要資訊。例如,讓計算機「尋找一個有停車場、有 WiFi、并且适合小孩去的中餐館。」大部分數字助手都會栽在這裡,而 VocalIQ 卻能夠妥善處理。那資料如何?VocalIQ 的成功率超過 90%,而 Google Now, Siri, Cortana 的成功率僅為 20% 。

VocalIQ 是如何運作的?

在編寫完程式後,VocalIQ 在亞馬遜的 Mechanical Turk 網絡集市上雇傭了一些合同方,讓他們對程式輸入一些一般使用者會用的查詢,來幫助程式學習人類是如何說話的。這些合同方會根據一個提示單,來用問題訓練 VocalIQ。在進行了 3,000 次對話後,VocalIQ 已經開始變得精确得多了。當整個階段結束後,VocalIQ 将從 Mechanical Turk 的合同方那裡記錄大約 10,000 組對話。

然後,将它放到市場環境中,Siri 每周都需要從使用者那裡擷取 10 億個查詢來改進準确度,但是,  僅用幾千個查詢, VocalIQ就能進行學習,而且表現上超越 Siri。

VocalIQ 聽起來可能和 Hound 有些相像,這是一個近期在蘋果和安卓系統上釋出的,新的數字助手應用。但是,Hound 隻能進行單詞對話交流,而 VocalIQ 能夠永遠記住使用者提供過的背景資訊,就像人一樣。這是一個巨大的突破。

回到中餐館的例子,如果你後來改變主意了怎麼辦?你隻要說「改成找一家墨西哥餐廳吧,」他就會生成新的結果,同時仍然會考慮你提到過的其他要求,比如停車場、WiFi之類的。Hound, Siri 和其它助手會讓你重新開始搜尋環節,但是 ,VocalIQ 會記住你說過的話。這比目前的任何應用都更加貼近人類。

因為 VocalIQ 能夠極好地考慮語境資訊,你基本上不需要檢視螢幕,以确認它正在完成你安排的任務。這在手機上是十分有用的,但在其它領域能夠發揮更大的價值,如駕駛汽車,或者蘋果正在建造的智能對話系統(在被收購前,VocalIQ 就曾定位于車載智能語音控制平台)。事實上,當使用者不需要看螢幕就能完成連續查詢的時候,VocalIQ 就認為自己成功了。而 Siri, Google Now, Cortana 等産品經常讓你點選螢幕以确認任務。

Siri 将迎來大幅度更新,谷歌等公司或難望其項背
點選檢視原視訊

2015年,倫敦機器學習會議上,VocalIQ 聯合創始人和 CEO Blaise Thompson 描述 VocalIQ的工作原理

公司 CEO Thomson 說,VocalIQ 不僅要将機器學習技術應用到語音識别、文本—語音合成方面,還要用于口頭(verbal)互動工具鍊的所有部分。

VocalIQ 不是将每一個語音互動視為完全分開的,它會從對話時長中吸取線索來提高了解力。在 Siri 可能重複預先寫好的回答腳本,并要求使用者确認的地方,他們的技術使用了遞歸神經網絡(recurrent neural networks)來判定:(1)了解使用者所說的機率;(2)基于所有給定的文本線索,這個機率是否足夠高,繼續還是回過頭去問一個問題,搞清楚些。

Siri 将迎來大幅度更新,谷歌等公司或難望其項背

它更像一個真正的助手,而不僅僅是語音搜尋

VocalIQ 有幾個基本技術:

  • 噪聲魯棒性——先進的噪聲魯棒性系統可以確定所有輸入在對話語境中得以解釋,顯著改善系統效果
  • 快速成型——強健、靈活的設計意味着,軟體開放商和合作方可以迅速成型,立刻接受到回報,迅即展開部署。
  • 平台架構——平台架構是一種延伸、雲托管、混合系統,可以用補充新資料以及知識引擎。
  • 互動學習—— 這一技術控制着研究深層部分,這部分驅動着被設計用來通過語言分析、語義學及文本進行學習的系統。

據介紹,VocalIQ 能夠篩除額外的噪音,來辨識你在說什麼,是以,它的準确度比目前的 Siri 要更高。它能夠擷取環境中所有的聲音——電視、小孩的叫聲,或者任何其它什麼——然後選擇最有可能是使用者執行的那個聲音。它甚至還能夠漸漸學習适應不同的口音,來提高準确度。如果你曾有過難以讓 Siri 了解你的經曆,你會明白這有多麼重要。

另外,VocalIQ 的平台十分靈活,使得它能被修改以做任何你想讓它做的事,一個例子是,你能教它當手機在口袋裡時,如何成功管理郵件(就像電影 Her 中 Joaquin Phoenix 扮演的角色控制他的手機一樣。)理論上講,蘋果将能夠使用 VocalIQ 來大大提高 Siri 完成任何任務的能力。

Siri 将迎來大幅度更新,谷歌等公司或難望其項背

體驗為先,内外整合

我們時常收購小型技術公司,一般來說,我們都不會讨論收購意圖或計劃。

在近期,曾出現了一些對于蘋果在人工智能方面投入不足的質疑。谷歌在此前五月的大型年會上,展示了一些使用人工智能的華麗産品,包括 Google Home,一個内置數字助手的智能播放器。

科技界的知名技術人員 Marco Arment,此前在他的部落格中評論到,蘋果并沒有趕上人工智能和語音平台的潮流,這可能導緻蘋果最終面臨與黑莓相似的命運。

不過,客觀地說,蘋果并沒有在其他競争對手紛紛出招時,無動于衷。

Siri 将迎來大幅度更新,谷歌等公司或難望其項背

Siri的三位創始人:Adam Cheyer、Dag Kittlaus、Tom Grube

其實,喬布斯生前已經強烈預感到了語音為先的新世界,這一預見甚至可能早于喬布斯對移動為先、PC革命的預見。

正是基于這一清晰的預見性,重病在身的喬布斯仍然完成了Siri 收購。他直接給 Siri 的創始人之一 Dag Kittlaus 打電話,最終說服他們将Siri團隊帶到了蘋果。收購很快完成,2011年,Siri 搭載着 iPhone4s ,讓世界驚豔。

Adam Cheyer記得,當喬布斯在All Things Digital 大會上被問及 Siri 是什麼時,喬幫主斬釘截鐵的說:「Siri 不是搜尋公司,它是人工智能公司。」

我記得史蒂夫低頭穿過公司餐廳,仿佛是在跟所有人說「走走走,現在别打攪我。」我和我的小夥伴當時正帶着Siri的品牌徽章挂鍊,他路過的時候被這個吸引了。他擡頭道:「Siri小夥伴,進展如何啦?」我們回答道一切順利,我們在和不同團隊交流。然後他意味深長地看了我們一眼說道:「我希望你們把這裡當成你們的糖果店。」他認為,Siri是一項變革性技術,能夠變革和整合蘋果的方方面面。(Adam Cheyer)

蘋果似乎也在不斷增加 Siri 的能力,比如, iPhone 中内置了直接喚醒 Siri 的功能,而與新Apple Tv 的結合則給 Siri 找到了更多應用場景。

不過,過去幾年 Siri 的發展并不令人驚歎。雖然 Siri 的創始團隊走了大部分人,但是,Tom Gruber(上圖最右邊的一位),也是創造了Siri 技術的首席科學家,仍然留在蘋果繼續他的研究工作。或許這次 Siri 大幅度更新,會采用他的工作成果。

Adam Cheyer 曾經說過,蘋果一直是他們期望的賣家,其中原因之一就是,蘋果比其他任何一家公司都更關注使用者體驗,而 Siri 根本上是提升使用者做事情的體驗。

提升使用者體驗,蘋果也有自己的方式:将内部創造出的技術與收購來的技術加以整合。公司也非常善于識别那些年輕、聰明的公司,并将這些創業公司整合到蘋果核心當中(事實上,蘋果有勇氣在 VocalIQ 甚至還沒發行它的手機應用前就将其收購,就是一個令人印象深刻的舉動。)

從過去的收購記錄來看,當一些技術可以嵌入現有蘋果産品中時,蘋果就會考慮收購。

比如,2006年,用于iTunes 的 CoverFlow ,2012年用于蘋果商店搜尋的Chomp,TouchID 的 Authentec,以及2013年用于傳輸地圖資料的 Locationary, HopStop, 以及 Embark。

2015年蘋果收購了幾個非常重要的人工智能創業公司,也遵循着相同的政策:整合進既有蘋果産品。

僅從近期公布于衆的幾次收購來看,Siri 團隊可能正在考慮大幅度提升Siri系統功能(有人甚至稱之為 Siri 2)。

Emotient(2016)

這家位于聖地亞哥的初創企業緻力于通過面部表情分析來判定人的情緒。

Emotient利用人工智能掃描人臉,然後可在數秒鐘内解讀出他們的面部表情所代表的意義,這種技術過去主要是幫助廣告商和銷售人員判斷消費者對廣告或産品的反應。Emotient技術的關鍵是能夠掃描人臉識别表情,但不會儲存有關這些人的任何個人身份資訊。對于許多初創企業來說,面部掃描技術的使用很容易引發隐私擔憂。

Emotient 可以讀取臉部43塊肌肉運動,解碼表情中暗含的情緒意圖,可以幫助蘋果産品更好地了解你的需求。無論是對機器學習,還是對蘋果想要用人工智能實作的事情來說,這都相當重要。

技術研究公司 Jackdaw Research首席分析師 Jan Dawson 推測,蘋果可能利用 Emotient的技術幫助其智能助理 Siri,以便其能在任何時刻都能為你挑選更好的應用。舉例來說,蘋果 iOS 9 中就包括 Siri 應用推薦功能:向下滑動主屏,你會看到 Siri 認為你即将會使用的4款應用。道森表示,蘋果可能利用前置攝像頭評估你的心情,并據此更主動地為你推薦應用。

Perceptio(2015)

就在确認收購 VocalIQ之前,蘋果又确認收購了一家緻力于人工智能的創業公司 Perceptio。外界認為,這将對提升 iPhone 的軟體實力有所幫助。

Perceptio 的創始人尼可拉斯·平托(Nicholas Pinto)和紮克·斯通(Zak Stone)分别是哈佛大學和麻省理工學院的人工智能專業博士,研究領域為基于深度學習技術的圖像識别系統,目前後者已經就職于蘋果庫比蒂諾總部。

Perceptio 主要專注于手機端的先進人工智能系統,可以在手機端執行人工智能圖像識别系統,同時不需要依賴大量外部資訊。這種特性,十分符合蘋果向來保護使用者資料的政策,可以在降低搜集使用者資料的情況下,更好的實作預期工作。

VocallQ(2015)

VocallQ 是一家英國劍橋的創業公司,開發了一款人機語音互動的軟體,這個軟體基于機器學習,利用這個軟體,使用者可以很自然地與計算機進行溝通,而且使用者使用越多其精确性也越高,這恰恰也是包括 Siri 在内的多個人工虛拟助理所研究的領域。收購前,該公司的産品主要面向汽車領域,客戶包括通用汽車等。考慮到蘋果正在研發汽車(自動駕駛汽車),是以,蘋果的此次收購對于将 Siri 遷移到汽車上意義重大。

如果蘋果僅使用了 VocalIQ 一小部分的技術子集,我們就會看見一個先進得多的 Siri。不過,蘋果内部技術,亦即 Tom Gruber 的研究或許也會被整合進 Siri 中。

另外, Emollient, Perception 以及其他并未公布的收購公司技術,也将成為蘋果人工智能未來重要組成部分。

拭目以待

目前還不清楚,蘋果何時會将 VocalIQ 的更多功能引入到 Siri上。一個資訊源預測,這一過程可能會是循序漸進的,以避免劇烈變化會導緻的使用者流失。但是,現在看來,蘋果已經準備大幅度改變 Siri 的運作方式了。

與此同時,Siri 還會在今年做出一些改進。根據 The Information 的 Amir Efrati 稱,蘋果會将 Siri 向開發者開放,就像亞馬遜開放 Alexa 助手一樣。這意味着,第三方的應用将能夠讓你通過語音完成一些任務。(例如「Siri,幫我叫一輛 Uber。」)

或許,在語音為先、語音商業時代,蘋果會創造出強大得多的使用者體驗。

讓我們拭目以待。

繼續閱讀