天天看點

搜狗的人工智能研發與應用:讓技術在産品中創造更多使用者價值

搜狗的人工智能研發與應用:讓技術在産品中創造更多使用者價值

王硯峰,搜狗公司桌面事業部進階總監,桌面研究部和語音互動技術中心負責人

機器之心:搜狗是何時在人工智能方面開展研究的?

王硯峰:現在提到人工智能可能大家首先想到的就是蘋果的語音助手 Siri,之後國内外各大公司也都在這個方向上不遺餘力的投入與宣傳。搜狗早在 2013 年就推出了搜狗語音助手,借助于背後搜尋引擎的能力,很快就從技術上做到了中文業内的領先,并在市場上赢得了不錯的口碑。隻是後來發現這類産品的使用者沉澱率很低,因為實際上它在手機端并不能夠真正很好的解決使用者的實際需求,更像一個玩具,是以後來在研發以及推廣上的資源就沒有再持續。但這些年來搜狗一直在内部各個産品線上都在堅持往「更智能化」的方向去走。

比如我們目前就一直在思考和探索未來的輸入法是什麼樣子的。傳統的輸入法隻是一個工具,核心是幫助使用者更有效率的進行文字輸入。但進一步思考使用者輸入背後的原始意圖時你會發現使用者的輸入需求主要是表達和資訊傳遞。那我們能不能在這兩個方向上利用機器智能多走一步,幫使用者多做一些事情,給使用者帶來更多的價值?例如在我在回複你發來的 message 時,輸入法能否根據你發來的問題自動生成回複。再比如我們微信聊天中,輸入法通過語義分析發現我正在給你推薦晚上聚餐的飯館,那就可以直接把餐館對應的大衆點評 URL 提供給我,我可以一鍵分享給你,那我就不再需要先切到點評 APP 搜尋該餐廳然後分享回微信的這樣繁瑣的過程。這些功能其實都是人工智能在産品中的展現,已經部分的灰階上線,目前還在打磨體驗。剛剛過去的谷歌大會也釋出了 Gboard 谷歌鍵盤,在這方面的思路就和我們是基本一緻的,也是讓輸入法更好的服務使用者。

談到語音,我們在 2012 年初就開始研發自己的語音識别技術,并且在 2012 年底就已經全量上線到了我們的輸入法和地圖産品中。當時搜狗語音助手曾短暫的使用過第三方公司提供的語音技術,在 2013 年上半年我們完成了深度學習技術的研發和上線,并實際的接入語音助手進行灰階測試,從使用者回報資料來看我們的準确率已經領先于第三方公司,于是 6 月份以後我們的全線産品就全都使用我們自己的語音識别技術了。

到現在,我們的語音技術還會每年去做對比評測,以了解我們在業界的真實位置。不是自己評,而是會找一些高校,讓他們找人去評,多台手機同時對比多家語音識别技術,評測的結果我們的表現是業内領先的。

機器之心:搜狗作為一家網際網路産品公司,能把語音識别技術做到現在這個水準的主要原因是什麼?

王硯峰:最大的差異點應該就是産品以及産品上産生的資料了。你是網際網路上最大的輸入法公司,那語音識别技術就是你必須要做好的,我們的産品和語音識别技術是天然 match 的。而語音識别技術本身就是一種輸入型技術,是以語音識别發生的最高頻場景就是輸入法。基于我們輸入法在網際網路數億使用者的體量上産生出來的使用者資料,甚至比其他公司整個開放平台上産生的資料量還要大。我們現在每天單是輸入法上的語音識别請求量已經超過了 1.3 億。基于這樣大的資料量,我們就能在深度學習技術和使用者海量資料的閉環中快速疊代起來,不斷提升識别的效果。從  2013 年到現在,我們在語音識别的錯誤率方面降低了至少 70%。一方面原因是我們在深度學習技術上的不斷提升,另一方面就是高品質使用者資料的積累。

機器之心:你們如何看待語音識别技術的應用,有哪些重要的應用方向?

王硯峰:如果普遍來看一項技術的價值,你越解決使用者的剛需,并且具有這個剛需的使用者群體越大,那麼這項技術的價值就越大。反過來,更多的剛需以及潛在價值也能給技術提供更大的發展動力。為什麼語音識别在 PC 網際網路時代沒有如此飛速的進步?除去技術發展的規律,我想更重要的因素可能反而是使用者的需求沒有那麼強烈,少數特殊群體除外。 

進入了移動網際網路時代,語音技術的價值就更大,因為手機的輸入效率要低于 PC,并且也會受到一些客觀環境的影響讓使用者很難用手打字。此時語音日常滿足的多是資訊輸入方面的需求,其産品形态就是語音輸入和語音搜尋,展現在使用者行為中就是聊天類 APP 和搜尋類 APP 構成了語音請求的絕大部分,語音更多也是效率性和便利性方面的提升。在這個時候我們已經可以說語音識别技術對于普通使用者來講是具有一定的價值了,但這個價值不夠大,從資料上看,語音輸入比例相比文字,仍然少得可憐。

進一步的,到了物聯網和車聯網時代,使用者的消費場景發生了變化,資訊擷取和閱讀的方式也會發生變化,螢幕和鍵盤會進一步被弱化。此時單純的輸入已經不夠,需要通過更自然的互動方式來解決,這是助手形态真正有意義的場景。用互動來解決什麼呢,仍然是使用者的剛需。車内的剛需是出行問題,而客廳内的剛需是娛樂問題。戶外場景下使用者也是有剛需的,但是産品本身比如手表卻不夠剛需,反倒更多的還是通過手機來滿足,又回到了手機的輸入需求上。至于很多公司目前正在做的通用「機器人」,我們目前看不出在使用者端的價值,能解決使用者什麼實際的需求,是以搜狗本身也沒有積極地去跟進這個市場。

從目前的産品發展結合技術對于産品體驗的增值方面來看,車内的語音目前是我們覺得最具有價值的,因為使用者在開車的時候雙手和雙眼都被占用的,而且這個市場已經開始進入爆發期,充滿産品和技術的活力,但仍不夠成熟,還有很大發展空間。是以需要把語音下沉到這個場景中,做各種專門的優化,比如從識别方面需要做 POI 識别優化、去噪、回聲消除、定向 mic 陣列,語義了解方面需要結合更多的知識和結構化資料來優化語義了解的效果和互動體驗,讓語音在車内達到使用者實用這樣一個水準。客廳内的語音在未來一定會比目前有更大的價值,但是受限于目前産品本身的發展,以及競争對手頗多(如手機和 PAD 等),距離大規模的爆發還需要時間。

機器之心:和其他專門做人工智能的公司相比,搜狗在人工智能的研究和應用方面有哪些優勢?

王硯峰:還是以語音領域為例吧。結合搜狗自身的能力,目前我們會有三個比較大的差異點。

第一點,我們是一個網際網路産品公司,會更加在意使用者體驗和技術的使用者價值。什麼是好的語音互動的使用者體驗?就是互動過程的準确高效,讓使用者很容易的表達、選擇以及回報。首先語音識别的準确率目前隻有 95% 以上,這是一個現實的技術問題,那如何通過互動設計進行風險規避,去彌補那 5% 的不足,這是要解決的第一大問題。比如我說「我想去航天一院」,而語音識别錯誤的給出了「我想去航天醫院」,于是我會進一步告訴它是「一二三四」的「一」,這時機器就會根據我的回報調整導航目的地。其次,在導航領域,一次 POI 查詢往往會有多個 POI 結果,比如使用者說「我要去首都機場」,首都機場有多個航站樓,每個航站樓也會有停車樓和出發到達口。之前的語音互動方法都是挨個把搜尋結果讀一遍然後問使用者選擇哪一個,這個體驗非常糟糕,十分的反人性。但如果可以充分利用好地圖裡的結構化資料,反過來問使用者去哪個航站樓,去接人還是送人等問題,就可以讓互動過程對于使用者更自然更輕松。當然,這個讓語義了解從單輪對話變成了對輪,技術的難度也會大大提高。

第二點,我們有豐富的提供内容和服務的産品線,除了大搜尋以外,還有地圖搜尋、搜狗問問、搜搜百科、号碼通、網址導航以及一系列垂搜産品。是以當你需要某類服務時,基本都可以通過内部部門之間的配合把高品質的服務迅速接入進來。而且這種内部閉環的能力對于互動體驗也具有更深層次的意義,就是你能夠針對這些服務去做更好的互動優化,比如上面提到的利用地圖結構化資料去做互動優化,就是建立在語音團隊和地圖團隊深度合作的基礎上完成的。其實不止地圖領域,即使是一般的搜尋問答,也需要更簡潔的傳回方式才适合語音去表達出來,這就需要對傳統的搜尋結果進一步的分析和抽象,才能讓答案做到簡潔明确。

第三個優勢,我們之前從輸入法、浏覽器、網址導航、搜尋等産品中積累了一個龐大的使用者體系,有豐富的使用者行為和使用者資料。帶着這種能力,我們有機會需探求使用者在語音請求背後的目的,并且用更智能的方式為使用者提供服務。比如經常被舉得一個例子,對着音箱說「我要聽劉德華在 1995 年演唱會唱的那版忘情水」,但實際上對于使用者來講點歌是很難的,我個人點歌的時候腦子就會一片空白。我自己平時聽歌要麼就是有一個自己整理好的本地播放清單,要麼就是用豆瓣 FM。是以在面對音箱的時候更加不「反人類」的做法應該是通過你的曆史資料進行推薦,使用者隻要說一句「放一些我喜歡的歌曲」就可以搞定一些。再比如我們在上海 CES 展示出來的導航新功能,使用者說「我想去首都機場」,在提供了航班号之後,會根據航班是否晚點以及目前路況,來給使用者建議更合理的出發時間。因為使用者去機場本身不是目的,出發或者接人才是目的,找到使用者背後的真實需求,并且結合實時資料來給使用者提供決策建議,才是真正的智能。

這三點差異或者優勢,從基于産品設計理念和經驗的互動體驗優化,到基于産品内容和資料的服務體驗的優化,再到基于使用者資料和行為的智能推薦優化,都深深植根于我們的使用者産品。

機器之心:目前人工智能技術在工業界很熱,很多公司都在往這個概念上去靠,去趕技術熱點。但涉及人工智能的落地,對應用和産品的了解也非常關鍵,你們覺得應該用一種什麼樣的産品理念去做人工智能?

王硯峰:不是為了技術本身去做技術,這個是需要堅持的重要理念。總結來講就是三點:産品方向上直奔使用者剛需,産品體驗上簡單可依賴,滿足使用者需求的方式上更聰明更智能。

上次在一個學術交流會上讓我們這些工業界的人給 AI 領域的小白創業者提一些建議,大家的共識都是「找剛需」。大的剛需不容易找或者搞不定,那你就要更多的做一些場景的下沉。拿機器翻譯來舉例子,實時翻譯這件事本身是非常難的,但如果把它限定在垂直的旅遊領域,那問題就會簡單很多,也能很好地滿足出境自由行群體的剛需。如果我們把能力沉下來放到場景中,其實還是可以發現有好多的價值的點可以去做。

再比如說大家都在做車内的語音喚醒,很多人在拼命提高語音喚醒的準确率,但是不管怎麼努力,都很難克服誤識率和召回率之間的沖突。但實際對于使用者而言更好的方案其實是加一個方控(喚醒的實體鍵),一個按鍵就從工程上解決了可能在研究上許多年都無法解決的一個難題,并且對使用者來講叫做「簡單可依賴」。如果我們自己來做産品,一定會更加推崇這樣的方案。

「智能化」是用在需要使用的地方,而不是處處用。複雜請求的互動,多樣需求的滿足,使用者個性化和上下文場景的優化,這些才是人工智能發揮能力的地方。我剛才舉得很多例子,其實都是這個理念的展現。

當然我并不是說方控一定比喚醒好,站在技術發展的角度,一定是越智能越好,喚醒本身也隻是一種階段性解決方案。但是僅就我們如何利用目前的技術水準做出一款有使用者價值的産品這一點而言,穩定的體驗一定是一個最基本的準則。

機器之心:搜狗現有的産品和技術的積累是否對接下來做人工智能應用起到非常強大的支撐作用?在人工智能方面搜狗後面有什麼規劃和戰略嗎?

王硯峰:人工智能目前主要解決的問題是資訊的互動和擷取,這跟搜狗在産品、技術以及資料上的累積是完全一緻的。

從互動方面,搜狗輸入法每年目前使用者有 20 萬億次的文字輸入,輸入法使用者滲透率達到 95% 以上。在核心品質方面,通過不斷的優化自然語言處理技術,搜狗輸入法一直以來就是讓使用者的輸入最準确的輸入法。現在我們又開始在輸入法上進一步去用更好的語義了解技術去做産品創新,讓輸入法變得更懂使用者,去滿足使用者的需求。我們的語音識别技術利用了輸入法産生出來的大資料,也能迅速疊代起來,并且通過很早的對深度學習技術的布局和跟進,讓我們的語音識别效果也能在業界持續在領先的地位。

而在資訊擷取方面,我們 04 年就推出了搜狗搜尋引擎,并且在中文搜尋方面取得了不遜于國内巨頭的搜尋效果,目前整個搜尋平台月活 UV 已經超過 5.6 億。在 13 年我們率先推出了知立方和語音助手,又在之後分别推出了微信搜尋、知乎搜尋、名醫搜尋等一些列針對垂直優質内容的差異化搜尋引擎。目前我們的搜尋團隊也在緻力于從推理方面突破現有技術的水準,讓搜尋真正能夠做到使用者問個問題,直接得到答案,而不是傳回多個文本比對的結果。

人工智能目前的發展動力主要是大資料加深度學習。而大資料中所謂「大」其實是「全」,通過多樣化的資料協同來産生價值,隻「大」不「全」的話往往隻能對産生資料的産品本身有幫助作用,但是外延價值就不夠了。Google 既是系統,同時還是 message、keyboardmail、search 等等,是以 Google 就是最具價值的大資料公司。目前搜狗在國内擁有壟斷級的 keyboard 和第二大的 search,同時也不斷在通過流量合作的方式把更多外部資料納入到我們的大資料體系下,是以我們在使用者資料的全面程度上是接近谷歌的,這也是我們的一個很重要的優勢。

後面我們的人工智能技術還是要堅持兩條路同時去走,一是讓更多有價值的技術通過産品去落地到使用者端,一是繼續追求技術的前沿,像 AlphaGo 這樣 ,用人工智能技術去挑戰現有技術不能解決的難題。尤其是在追求更前沿的技術方面,我們後面也會有更大的投入。不久前我們也和清華大學聯合成立「清華大學天工智能計算研究院」,希望通過這種方式深入探索人工智能領域的前沿技術。

繼續閱讀