天天看點

搜狗王小川說輸入法的未來是自動問答,那麼這個技術究竟發展得怎麼樣了?

雷鋒網(公衆号:雷鋒網)按:本文作者,雷鋒網獨家首發文章。

科研界和工業界的關系往往是,科研界負責生産原材料,工業界負責把原材料進行加工料理,最終給使用者端上一盤饕餮盛宴。正如20年前,谷歌利用pagerank這個原材料,做出了現在世界上最貴的一道菜,谷歌搜尋引擎。

在上個月的cncc2016演講中,搜狗ceo王小川提出,輸入法的未來方向是自動問答。這句話告訴我們搜狗廚房已經準備好做菜自動問答了,那麼讓我們看看自動問答這道菜的原材料如何,如果原材料不好想必導緻巧婦難為無米之炊。自動問答粗略的進行劃分,可以劃分為:

基于文本的抽取式問答技術,和基于知識庫的生成式問答技術。

首先,我們看一看基于文本的抽取式問答。

此類技術在學術界又有着幾個分支:社群問答(cqa),網頁問答(webqa),文本問答(textqa),閱讀了解(machine  comprehension)。對應的工業界應用有百度知道(社群問答),搜尋引擎直接回複(webqa)。

此技術通俗點說就是讓機器學會篩選,使用者給定一個問題,機器通過各種各樣的算法從自己的語料庫中選一個答案回來。

類似于機器是一個超級圖書管理者,知道自己的庫裡面有啥書,使用者一問就從自己的圖書館裡面查詢有沒有相關的;但是這個管理者推理能力不強,如果使用者的描述不大清晰,或者網上沒有,那這次查詢就失敗。

首先我們來看兩個例子,分别是百度知道(cqa),谷歌的搜尋推薦(textqa或者是webqa)。

搜狗王小川說輸入法的未來是自動問答,那麼這個技術究竟發展得怎麼樣了?

谷歌中如果在英文市場下搜尋英文(經測試中文并不支援),很多問題谷歌将自動給出答案,并把詳細的步驟列出。

搜狗王小川說輸入法的未來是自動問答,那麼這個技術究竟發展得怎麼樣了?

下面,我們拿cqa進行舉例(其他的基于文本抽取的問答技術均大同小異,均是依靠各式各樣的文本相似度計算技術),文本相似度計算一直是計算機人工智能領域研究的重點問題,主要有三大類相關技術。

對于文本a中的任意一個詞w,計算w在不在文本b中出現,如果出現就給個高分,不出現就給個很低的分(到底多低要看這個詞在整個語料庫中的重要程度),最後把文本a所有詞的得分累計起來就是最後a與b的相似度。

3. 深度學習模型:深度模型研究問答比對技術如雨後春筍般湧現,而且已經證明比傳統方法有效(jeff dean在wsdm2016講谷歌的搜尋算法特征貢獻的前三名均是基于深度學習的)。

搜狗王小川說輸入法的未來是自動問答,那麼這個技術究竟發展得怎麼樣了?

經過當時作者的實驗,如果我們隻把排名最高的拿出來判斷對不對,基于語言模型的可以讓準确率達到68%,基于翻譯模型的可以到達70%,基于詞向量的方法可以達到73.8%。由于技術還在發展,可以想象基于一些複雜深度學習技術的模型可以達到将近80%的準确率。

那麼百分之八十意味着什麼呢?

常見問題肯定做得好,不常見的無能為力。

例如上圖,xp靠什麼建立wifi,光靠字元比對大部分正确的相似問題已經被撈回來了,是以一旦這類問題向機器提問,機器一定能做得很好,圖書管理者合格。然而底下的問題,勞務派遣靠什麼掙錢就不一樣了,問題比較奇葩,候選的問題中相關的就少,唯一正确的還是福建一個公司勞務派遣如何掙錢,這樣機器這個圖書管理者就搞不定了。圖書館裡沒一樣的書,而唯一相似的還需要一些推理。

這就是現在基于文本抽取的自動問答現狀,常見問題可以搞定,不常見的無能為力。

于是,我們可以預想以後的輸入法如果用自動問答作為入口,結果一定是他可以從一定程度幫助我,但是難度大的問題,仍然不行。

基于知識庫的問答技術,往往通過一個已有的知識庫(例如維基百科,freebase等)回答使用者的問題,其中主要利用語義解析器将問題的主謂賓等成分抽取出,最終推理出對應的答案。這項技術算是一個新興的領域,自從知識圖譜概念火熱起來才漸漸被人們重視。

用一句話概括現狀是是:

特别簡單的才可以,稍微轉個彎就懸了。

基于知識庫的問答往往有兩條路——

一條路是斯坦福學派的ccg parser,一種特殊的語義分析器來了解自然語言問題; 另一條,近年來大火的深度學習。

然而縱使重武器應用到了這個領域,仍然效果不是很理想。例如,webquestion是一個基于知識庫的問答統一評測的資料集。

其中的典型問題有:

what does jamaican people speak?

what did james k polk do before he was president?

what is the oregon ducks 2012 football schedule?

我們人看這些問題感覺特别簡單,稍微經過一些推理就可以回答,然而非常讓人尴尬的是,在這份資料集上,最好的模型隻有50%多的準确率,即利用知識庫隻能準确回答一半網絡上的問題。更何況這是學術論文,模型都是精調且不考慮效果的情況下。

并且基于知識庫的問答技術一個比較大的局限是,他非常依賴其他相關自然語言處理技術,例如實體連結(即如何區分蘋果指水果還是公司),知識庫品質(如果知識庫都錯了,或者沒有,更回答不了)。是以知識庫的問答技術在系統實作上要比文本抽取式難一些,且耗費更大人力。

基于文本抽取的問答技術現在扛起了大部分問答系統,絕對是可以工業界使用的,相信搜狗的輸入法如果好好做會達到并不低于百度知道的效果。然而基于知識庫的問答技術仍然是學術界的玩具,仍然需要一個又一個技術突破。

本文作者:nlp日月星辰

繼續閱讀