中國人工智能學會通訊——搜狗搜尋:從搜尋到問答 1.3 搜狗立知系統

真實使用者需求分布和電視節目中的問題分布差異非常大，我們根據使用者向搜尋引擎送出的真實查詢請求，分析統計出使用者問答類需求的分布情況（見表1）。

我們将使用者的問題類型分為三大類，第一類是事實類問題，例如“中國人口最多的城市是哪個”，這類問題的答案是實體、數字或短語等，通常是10個字以内的簡短文本，該類問題占搜尋請求的比率為2%左右；第二類是分析類問題，例如“北京公積金提取流程”，這類問題尋求的是某種事物的方法、原因或經驗等，其答案需要數十到數百字，甚至更長的一段文本來描述，該類問題占搜尋請求的比率達到20%；第三類是觀點類問題，即尋找人們對某件事物的看法，通常是互斥的兩種或多種觀點，這類問題占搜尋請求的比率約3%。從使用者送出給搜尋引擎的問題來看，大部分使用者的問題屬于分析類。顯然，從實際需求出發，一個實用的問答系統需要具備回答上述三類問題的能力。

立知系統的目标是針對上述各類問題傳回相應答案，其總體架構如圖4所示。整個系統根據問題類型設計成事實類問答子系統、分析類問答子系統和觀點類問答子系統三個子系統，分别處理相應類别的問題。系統接收請求後，根據意圖分析子產品，将問題分發給相應子系統，子系統處理後直接傳回問題的答案。其中事實類問答子系統很好地支撐了搜狗汪仔參加問答比賽，下面重點介紹分析類問答子系統，以及觀點類問答子系統的關鍵功能子產品和資料處理流程。

分析類問答系統解決的是答案為非實體的問答需求（見圖5），這類問答的難點在于使用者對于問題的自然語言描述方式複雜多樣，需要的答案也是條例清晰、内容完整的自然語言文本，沒有确定的答案類型輔助；很多情況下也并非有“唯一”正确的答案，而是要從多個可以回答問題的文本中，選擇或重組織一個盡可能精準、完整、權威度高的回答。

針對這類問答需求，我們的解決方案是從搜尋引擎結果中擷取高品質候選答案篇章，利用NLP技術對查詢和候選篇章進行意圖了解和語義分析，計算使用者問題和候選答案的比對程度，挑選出最能回答問題的段落或句子，并利用自動摘要技術進行答案生成，最終傳回給使用者精準完整的答案。涉及到的關鍵技術包括下述三個方面。

(1) 海量網頁問答文本挖掘

我們實作了一套從網頁資料中，自動挖掘高品質分析類問答資料的流程。首先，基于頁面結構分析自動抽取出候選問答文本對。其基本思想是通過頁面解析獲得每段文本對應的标簽和樣式，根據标簽和樣式對頁面中的文本段進行聚類，針對每一類進行模闆特征和規則評分，獲得候選問題，對候選問題進行分類并截取對應的答案文本（清單型和一般文本段落型）。該方法無需人工分析頁面和配置抽取模闆，适用于全網資料。然後，對抽取出的候選問答對進行語義分析。通過主題模型、分散式語義表示、文本聚類和相似度計算、頁面品質和站點品質打分等，去掉不是問題或者答非所問的資料，保留問題比較明确、答案較為相關、來源較為可信的資料。

(2) 基于語義比對的候選答案排序

在借助網頁搜尋擷取候選答案文本的基礎上，問答系統重點解決的是對使用者意圖的判斷和對候選答案的排序。基于大規模搜尋引擎資料和使用者點選回報學習的問答意圖模型，能夠幫助我們很好地識别出使用者的問答需求，例如查詢“外地人北京買房資格”，并不包含疑問詞，但是反映了使用者對相關答案的需求，屬于典型分析類問答。對于識别出來的問答需求查詢，我們利用文本比對和深度語義比對方法計算查詢和候選結果網頁标題、抽取問題，以及答案之間的相關性，并通過意圖分析和文本分類技術，找到針對該問題需求的比較優質權威的站點結果，生成多種特征，利用機器學習排序模型進行候選答案排序。

(3) 對最佳答案文本的自動摘要展現

精準問答不僅要求給出答案，還需要答案條理清晰、簡明扼要，在移動搜尋環境中這一點尤為重要，是以我們會對選出的答案文本進行自動摘要。主流的自動摘要方法一般是進行内容表示、權重計算、内容選擇和内容組織，針對問答這一場景，還需要在進行上述一系列步驟的同時，加入給定問題（或使用者查詢）的變量；對于清單型的答案文本，還加入了樣式的限制。最後生成的答案是從原文本中摘選出的，具有語義連貫性和表意完整性的最小句子集合。同時，我們也在嘗試和研究引入注意力機制的端到端的答案生成方法。

便捷地擷取知識是問答需求的本質，基于通用搜尋和機器閱讀了解的答案生成将在未來為使用者資訊擷取效率的提升帶來極大價值。

建構觀點類問答系統的重點有兩大塊，即觀點資料的挖掘，以及使用者查詢和觀點的比對，其中查詢和觀點資料的比對方法類似在分析類問答系統中的處理流程，這裡簡要介紹觀點資料的挖掘流程（見圖6）。

系統首先依據使用者查詢需求的分布，從網頁庫中抽取優質問答站點的問答資料，并通過查詢分析技術識别一個問題是否屬于互斥類問題，例如“孕婦能否吃榴蓮”。對于識别出的互斥類問題，進一步細分其互斥類型，包括好不好、能不能、真假、選擇問等多種類型。接下來對語義相同的問題進行聚合，并采用情感分析技術對聚合内的全部答案進行正負向情感判别。最後是答案聚合和排序，将表達相同觀點的回答聚合在一起，形成優質的觀點問答資料庫，作為後續響應使用者查詢的基礎。

觀點資料來自網際網路頁面，通過觀點挖掘可以擷取網民對某件事物看法的綜合表達，是以挖掘得到的觀點聚合資料是針對特定事物網民群體智慧的集中展現和清晰展示。

內建上述三個問答子系統形成的立知系統，具備回答通用領域各類問題的能力，從系統的運作方式不難看出，目前這套立知系統深度依賴網際網路海量資料提供的基礎，以及包括資料挖掘、自然語言處理、語義計算和情感計算等在内的多項人工智能核心技術。同時，作為一套通用問答系統，立知系統可以很自然地接入搜尋引擎，為網際網路使用者提供更加友善的搜尋服務。

中國人工智能學會通訊——搜狗搜尋:從搜尋到問答 1.3 搜狗立知系統

繼續閱讀

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

Linxu常用指令技巧彙總

ERROR 1 (HY000): Can't create/write to file '/tmp/#sql_4188_1.MYI' (Errcode: 28)

艱難安裝LDAP,SSL認證

《Linux指令行與Shell腳本程式設計大全第2版.布盧姆》pdf

MySQL的4種隔離級别？出現問題

XX系統實施過程問題總結

無元件上傳圖檔到資料庫中，最完整解決方案

【MySQL資料庫】資料庫索引事務1.索引2.事務

無人機--飛控科普

neo4j之cypher使用文檔

【python】【資料處理】畫多元資料分布圖

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

登入plsql 報錯 the account is locked --使用者被鎖

SequoiaDB巨杉資料庫C++驅動概述