聊天機器人,提問、檢索、回答。
提問,查詢關鍵詞生成、答案類型确定、句法和語義分析。查詢關鍵詞生成,提問提取關鍵詞,中心詞關聯擴充詞。答案類型确定,确定提問類型。句法和語義分析,問題深層含義剖析。檢索,搜尋,根據查詢關鍵詞資訊檢索,傳回句子或段落。答案抽取,分析和推理檢索句子或段落,抽取提問一緻實體,根據機率最大對候選答案排序。
海量文本知識表示,網絡文本資源擷取、機器學習方法、大規模語義計算和推理、知識表示體系、知識庫建構。問句解析,中文分詞、詞性标注、實體标注、概念類别标注、句法分析、語義分析、邏輯結構标注、指代消解、關聯關系标注、問句分類、答案類别确定。答案生成過濾,候選答案抽取、關系推演、吻哈程度判斷、噪聲過濾。
聊天機器人技術類型。基于檢索技術,資訊檢索,簡單易實作,無法從句法關系和語義關系給出答案,無法推理問題。基于模式比對技術,把問題往梳理好的模式比對,推理簡單,模式涵蓋不全。基于自然語言了解技術,把淺層分析加句法分析、語義分析。基于統計翻譯模型技術,把問句疑問詞留出來,和候選答案資源比對。
問句解析。哈工大LTP(語言技術平台)、博森科技、jieba分詞、中科院張華平博士NLPIR漢語分詞系統。
segment 切詞,傳回tuple(token, pos),token切詞,pos 語言屬性。調用segment方法,指定pos_names參數'all' 、'child' 、'parent',預設parent 表示擷取詞性最頂級詞性。child 表示擷取詞性最具體資訊。all 表示擷取詞性相關所有詞性資訊,從頂級詞性到該詞性路徑。
詞性分類表。nlpir 源代碼 /pynlpir/pos_map.py,全部詞性分類及其子類别:
參考資料:
《Python 自然語言處理》
<a href="http://www.shareditor.com/blogshow?blogId=73">http://www.shareditor.com/blogshow?blogId=73</a>
<a href="http://www.shareditor.com/blogshow?blogId=74">http://www.shareditor.com/blogshow?blogId=74</a>
歡迎推薦上海機器學習工作機會,我的微信:qingxingfengzi