天天看點

沒有語音互動,不談智能手表

一塊合格的智能手表,除了可以耍帥看時間外,還應該能夠讓使用者獲得生理和心理上的自由:即使雙手不接觸裝置,也能友善地啟動裝置和釋出指令;即使視線并不鎖定在螢幕上,也能用眼角的餘光快速獲得最重要的資訊。

同時,智能手表還應能及時推送最相關的資訊,過濾垃圾資訊和噪音,給予使用者随時線上的安全感,以便使用者專注于最重要的事情。

沒有語音互動,不談智能手表

簡而言之,智能手表不應該是戴在手腕上的縮小版智能手機、另一個資訊幹擾源,而應幫助使用者更好地活在當下,享受生命的真實和美好。

智能手表的天然限制(小螢幕、運動行進中的晃動場景)對其人機互動也提出了更高的要求:無論是使用者輸入還是最終的結果展現,都要簡單快速、自然直接。

在這樣的限制下,沒有語音而隻有觸控的“智能”手表必将會是一場災難。智能手表的小螢幕決定了其不适合精确的鍵盤輸入及觸控手勢,試想一下,在那塊伸出兩根纖細的手指就能幾乎遮擋整個表盤的狹小螢幕上,要求使用者用指尖去進行小心翼翼的精确點選輸入,那将會是多麼尴尬;當行走在寒風中,雙手提着大包小包的購物袋時,你不太可能騰出雙手去觸摸手表;另一些場景下,不合理的互動方式甚至會危及生命安全。

比如在駕駛汽車的時候,使用者需要的是精神目光集中在路面,雙手随時緊握方向盤和換擋機構。這時候用手去操作智能裝置,哪怕是多一秒種的分心,都可能換來生命的代價…… 在這種情況下,如何減少觸摸操作,解放雙手,與機器進行自然直接的互動便顯得尤為重要。

 日常生活中,語言是人與人交流的最常用和直接方式。在電影《星際穿越》中男主角馬大少與機器人tars 對話式的互動令人印象深刻。即使身陷五維空間,馬大少依然可以用自然語言向tars咨詢資訊和下達自然語音指令。電影雖然虛構,但這樣的互動着實令人神往。自然語言對話式的互動,即使是老人和小孩也無需學習。使用者可以“無感”地喚醒裝置,“無縫”地擷取資訊、給予指令,毫無生澀和違和感,這才是最好的智能裝置互動方式。

從科幻回到現實,目前的智能手表大多仍以觸控互動為主,盡管android wear和apple watch都在有意簡化觸控并引導使用者更多地使用語音互動,但功能仍未盡善盡美,尤其在國内google now和siri的中文識别體驗更是不盡如人意。谷歌蘋果尚且如此,更不用說其它一些備受使用者“神吐槽”的各種語音互動軟硬體了。

沒有語音互動,不談智能手表

那麼問題來了,既然語音是最簡單直接的互動方式,為何現在難以成為主流,甚至仍被使用者诟病呢?

 真正的症結在于目前的語音互動技術尚不能達到人類的預期。由于環境噪音、網絡不穩定等先天因素,使得很多時候系統并不能很好地接收使用者的語音輸入。即使系統聽到了使用者的語音并成功将其轉化為準确的文本(語音識别),目前的算法也不能完全了解使用者的真實本意(即語義識别),更不用說後續的準确搜尋執行和結果呈現了。

目前市面上很多所謂的人工智能語音,大部分還是要求使用者按照預置指令模闆進行互動,使用者需要付出較大的學習成本來适應機器。比如在某些所謂的“智能”車載裝置上,使用者必須說先說“導航”啟動導航界面,然後說“北京”、“某區某街道”, 機器才能一步步識别找到目的地。如果使用者直接說 “我要去某地”,機器是無法識别你的意圖的。甚至有時使用者已經按照預制模闆來進行互動了,卻仍然得不到想要的結果。太多時候,機器聽不清楚,也聽不懂使用者在說什麼。這樣的人工僞智能,本身技術不成熟,營銷宣傳的時候又盲目誇大,導緻了使用者對語音互動産品的進一步失望。

顯然,生硬的預制語音指令肯定無法滿足使用者的需求。真正的人工智能語音互動,應該讓機器來學習和适應人,而不是讓人去适應機器。比如,機器應該可以在識别當下地點和時間的基礎上,基于使用者曆史操作資料,進行使用者喜好學習,深入地了解使用者的語音輸入,給出最佳的答案。使用者無需多說,機器便可以準确判斷使用者意圖并高效地執行。這樣的互動,才是“心有靈犀,說到做到”,才能算真正的智能語音互動。

短期來看,智能手表互動采取的方式将是傳統的觸控互動與初級的智能語音互動的結合。觸控操作仍将應用于絕大多數場景,但在一些特定場合簡單的任務下,語音互動可以讓使用者更加快捷、友善、優雅的實作操作目的。第一代智能手表的領軍産品,可以沒有複雜成熟的語音互動,但至少需要有初級的語音系統,可以做到與觸控操作并存互補。而長期來看,智能語音互動必将逐漸取代觸摸等傳統互動方式, 實作人與人對話式的自然語言互動。

其實,讓使用者使用語音與機器系統互動并不存在習慣問題,因為自然語言互動本身的學習成本幾乎為零。關鍵在于語音互動是否真正可為使用者帶來便利,因為人的“懶惰”天性永遠會趨向選擇最小投入,最大産出的操作路徑。這種例子其實已經不在少數:一旦你習慣了iphone上的touchid指紋解鎖、macbook上的多點手勢操作,便會覺得“輸密碼”和“點滑鼠”是種非常“反人性”的互動;一旦你習慣了攝像頭“掃一掃” 二維碼,便不會再喜歡“ ctrl c + ctrl v”的粘貼複制網站位址;一旦你習慣了手機支付寶上簡單快捷的支付,就會開始厭煩用銀行卡或者現金進行繁瑣的交易... … 未來,一旦你習慣了一擡手問“明天會下雪嗎?”,還會願意回到手機上從無數的app中打開天氣程式去檢視天氣嗎?

能否盡快的實作真正的智能全語音互動,在根本上還是取決于技術的進步和産品的完善。使用者看似簡短的一個個語音指令輸入的背後涉及到了整合優化語音識别、自然語言處理、機器學習、大資料、精準搜尋等諸多技術難點,難度可想而知。令人鼓舞的是,過去的幾年内,人工智能語言技術已經有了長足的發展。現在的語音識别技術在大多數時候已經能夠比較準确的識别使用者的語言文字。随着技術和産品的高速成熟和發展,全智能語音時代的到來絕不會太久。智能語音技術“奇點爆發”之時,便是傳統觸摸操作和繁瑣的app互動的終結之日。

總之,智能手表作為語音互動的最合适應用場景之一,從誕生的第一天起,就注定離不開智能語音技術。作為狂熱的極客和理性的使用者,我們允許一塊智能手表目前暫時沒有真正的“智能語音”,但我們絕不接受因噎廢食,退而求其次的妥協。是以,沒有語音互動,别跟我談智能手表。

本文主要作者是林宜立([email protected]),出門問問産品經理,對智能手表有興趣的同學,可以加入他們的android wear 智能手表qq群369838318

出門問問是一家專注于人工智能的科技創業公司,它集合了世界頂尖的語音識别、語義分析和資料分析背景的技術專家,利用自主研發的語音識别、語義分析及搜尋技術,打造領先的中文智能語音互動技術,重新定義人機互動方式。

繼續閱讀