搜狗王小川說輸入法的未來是自動問答，那麼這個技術究竟發展得怎麼樣了？

雷鋒網(公衆号：雷鋒網)按：本文作者，雷鋒網獨家首發文章。

科研界和工業界的關系往往是，科研界負責生産原材料，工業界負責把原材料進行加工料理，最終給使用者端上一盤饕餮盛宴。正如20年前，谷歌利用pagerank這個原材料，做出了現在世界上最貴的一道菜，谷歌搜尋引擎。

在上個月的cncc2016演講中，搜狗ceo王小川提出，輸入法的未來方向是自動問答。這句話告訴我們搜狗廚房已經準備好做菜自動問答了，那麼讓我們看看自動問答這道菜的原材料如何，如果原材料不好想必導緻巧婦難為無米之炊。自動問答粗略的進行劃分，可以劃分為：

基于文本的抽取式問答技術，和基于知識庫的生成式問答技術。

首先，我們看一看基于文本的抽取式問答。

此類技術在學術界又有着幾個分支：社群問答（cqa），網頁問答（webqa），文本問答（textqa），閱讀了解（machine comprehension）。對應的工業界應用有百度知道（社群問答），搜尋引擎直接回複（webqa）。

此技術通俗點說就是讓機器學會篩選，使用者給定一個問題，機器通過各種各樣的算法從自己的語料庫中選一個答案回來。

類似于機器是一個超級圖書管理者，知道自己的庫裡面有啥書，使用者一問就從自己的圖書館裡面查詢有沒有相關的；但是這個管理者推理能力不強，如果使用者的描述不大清晰，或者網上沒有，那這次查詢就失敗。

首先我們來看兩個例子，分别是百度知道（cqa），谷歌的搜尋推薦（textqa或者是webqa）。

谷歌中如果在英文市場下搜尋英文（經測試中文并不支援），很多問題谷歌将自動給出答案，并把詳細的步驟列出。

下面，我們拿cqa進行舉例（其他的基于文本抽取的問答技術均大同小異，均是依靠各式各樣的文本相似度計算技術），文本相似度計算一直是計算機人工智能領域研究的重點問題，主要有三大類相關技術。

對于文本a中的任意一個詞w，計算w在不在文本b中出現，如果出現就給個高分，不出現就給個很低的分（到底多低要看這個詞在整個語料庫中的重要程度），最後把文本a所有詞的得分累計起來就是最後a與b的相似度。

3. 深度學習模型：深度模型研究問答比對技術如雨後春筍般湧現，而且已經證明比傳統方法有效（jeff dean在wsdm2016講谷歌的搜尋算法特征貢獻的前三名均是基于深度學習的）。

經過當時作者的實驗，如果我們隻把排名最高的拿出來判斷對不對，基于語言模型的可以讓準确率達到68%，基于翻譯模型的可以到達70%，基于詞向量的方法可以達到73.8%。由于技術還在發展，可以想象基于一些複雜深度學習技術的模型可以達到将近80%的準确率。

那麼百分之八十意味着什麼呢？

常見問題肯定做得好，不常見的無能為力。

例如上圖，xp靠什麼建立wifi，光靠字元比對大部分正确的相似問題已經被撈回來了，是以一旦這類問題向機器提問，機器一定能做得很好，圖書管理者合格。然而底下的問題，勞務派遣靠什麼掙錢就不一樣了，問題比較奇葩，候選的問題中相關的就少，唯一正确的還是福建一個公司勞務派遣如何掙錢，這樣機器這個圖書管理者就搞不定了。圖書館裡沒一樣的書，而唯一相似的還需要一些推理。

這就是現在基于文本抽取的自動問答現狀，常見問題可以搞定，不常見的無能為力。

于是，我們可以預想以後的輸入法如果用自動問答作為入口，結果一定是他可以從一定程度幫助我，但是難度大的問題，仍然不行。

基于知識庫的問答技術，往往通過一個已有的知識庫（例如維基百科，freebase等）回答使用者的問題，其中主要利用語義解析器将問題的主謂賓等成分抽取出，最終推理出對應的答案。這項技術算是一個新興的領域，自從知識圖譜概念火熱起來才漸漸被人們重視。

用一句話概括現狀是是：

特别簡單的才可以，稍微轉個彎就懸了。

基于知識庫的問答往往有兩條路——

一條路是斯坦福學派的ccg parser，一種特殊的語義分析器來了解自然語言問題；另一條，近年來大火的深度學習。

然而縱使重武器應用到了這個領域，仍然效果不是很理想。例如，webquestion是一個基于知識庫的問答統一評測的資料集。

其中的典型問題有：

what does jamaican people speak?

what did james k polk do before he was president?

what is the oregon ducks 2012 football schedule?

我們人看這些問題感覺特别簡單，稍微經過一些推理就可以回答，然而非常讓人尴尬的是，在這份資料集上，最好的模型隻有50%多的準确率，即利用知識庫隻能準确回答一半網絡上的問題。更何況這是學術論文，模型都是精調且不考慮效果的情況下。

并且基于知識庫的問答技術一個比較大的局限是，他非常依賴其他相關自然語言處理技術，例如實體連結（即如何區分蘋果指水果還是公司），知識庫品質（如果知識庫都錯了，或者沒有，更回答不了）。是以知識庫的問答技術在系統實作上要比文本抽取式難一些，且耗費更大人力。

基于文本抽取的問答技術現在扛起了大部分問答系統，絕對是可以工業界使用的，相信搜狗的輸入法如果好好做會達到并不低于百度知道的效果。然而基于知識庫的問答技術仍然是學術界的玩具，仍然需要一個又一個技術突破。

本文作者：nlp日月星辰

搜狗王小川說輸入法的未來是自動問答，那麼這個技術究竟發展得怎麼樣了？

繼續閱讀

知識圖譜 - rdf:range rdf:seqTTL validator

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

目前音樂推薦系統研究中的挑戰和願景摘要1. 介紹2. 重大的挑戰3. 未來方向和願景

MovieTaster-使用Item2Vec做電影推薦 MovieTaster-使用Item2Vec做電影推薦

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

我做“内網知識星球”一周年總結

K-近鄰算法以及圖像分類應用

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合