天天看點

自然語言處理--趨勢篇

轉載;原文位址:https://gitbook.cn/gitchat/geekbook/5b988b4eca9910654c0823f5/topic/5b993d66ca9910654c084853

第五章 趨勢篇

随着深度學習時代的來臨,神經網絡成為一種強大的機器學習工具,自然語言處理取得了許多突破性發展,情緒分析、自動問答、機器翻譯等領域都飛速發展。

下圖分别是 AMiner 計算出的自然語言處理近期熱點和全球熱點。通過對1994-2017年間自然語言處理領域論文的挖掘,總結出二十多年來,自然語言處理的領域關鍵詞主要集中在計算機語言、神經網絡、情感分析、機器翻譯、詞義消歧、資訊提取、知識庫和文本分析等領域。旨在基于曆史的科研成果資料的基礎上,對自然語言處理熱度甚至發展趨勢進行研究。圖中,每個彩色分支表示一個關鍵詞領域,其寬度表示該關鍵詞的研究熱度,各關鍵詞在每一年份(縱軸)的位置是按照這一時間點上所有關鍵詞的熱度高低進行排序。

自然語言處理--趨勢篇

圖 14 自然語言處理近期熱點圖

自然語言處理--趨勢篇

圖 15 自然語言處理全球熱點圖

圖14顯示,情緒分析、詞義消歧、知識庫和計算機語言學将是最近的熱點發展趨勢,圖15顯示詞義消歧、詞義了解、計算機語言學、資訊檢索和資訊提取将是自然語言處理全球熱點。

我們同時在微網誌@ArnetMiner 中發起了關于自然語言處理未來發展趨勢的投票,得到了如下結果。

文本了解與推理:淺層分析到深度了解 135(28.1%)

對話機器人:實用化、場景化 83 (17.3%)

NLP 行業: 與專業領域結合 74(15.4%)

學習模式: 先驗語言知識與深度學習結合 45(9.4%)

文本情感分析:事實性文本到情感性文本 43(9%)

語言知識: 人工建構到自動建構 25(5.2%)

資訊檢索: 跨語言、多媒體 23(4.8%)

文本生成: 規範文本到自由文本 15(3.1%)

NLP 平台化:封閉到開放 13(2.7%)

對抗訓練思想的應用 9(1.9%)

共有465人次參與了投票,文本了解與推理由淺層分析到深度了解有135人次支援,占比28.1%,對話機器人實用化、場景化,NLP 行業與專業領域結合,學習模式由先驗語言知識與深度學習結合以及文本情感分析由傳統媒體到社交媒體依次排列,分别占比17.3%、15.4%、9.4%和9%。我們依據排列由高到低選取其中幾項展開介紹。

文本了解與推理:淺層分析向深度了解邁進

Google 等公司已經推出了以閱讀了解作為深入探索自然語言了解的平台。文本了解和推理是自然語言處理的重要部分,現在的機器軟體已經可以根據文本的語境上下文分辨代詞等訓示詞,這是文本了解與推理從淺層分析向深度了解邁進的重要一步。

對話機器人:實用化、場景化

從最初2012年到2014年的語音助手,到2014年起逐漸出現的聊天機器人微軟小冰、百度小度,再到2016年哈工 SCIR-笨笨,對話機器人越來越智能。最初的語音助手可以聽得到但是聽不懂,之後的對話機器人可以聽得懂但是實用性卻不強,現在對話機器人更多的是和場景結合,即做特定場景時有用的人機對話。

NLP+行業:與專業領域深度結合

銀行、電器、醫藥、司法、教育等領域對自然語言處理的需求都非常多。自然語言處理與各行各業的結合越來越緊密,專業化的服務趨勢逐漸增強。劉挺教授預測,自然語言處理首先會在資訊準備充分,并且服務方式本身就是知識和資訊的領域産生突破,例如醫療、金融、教育和司法領域。

學習模式:先驗語言知識與深度學習結合

自然語言進行中學習模式有一個較為明顯的變化。在淺層到深層的學習模式中,淺層學習是分步驟的,深度學習的方法貫穿在淺層分析的每個步驟中,由各個步驟連接配接而成。而直接的深度學習則是直接的端到端,人為貢獻的知識在深度學習中所占的比重大幅度減小。但如何将深度學習應用于自然語言處理需要進行更多的研究和探索,針對不同任務的不同字詞表示,将先驗知識和深度學習相結合是未來的一個發展趨勢。

文本情感分析:事實性文本到情感文本

之前的研究主要是新聞領域的事實性文本,現在情感文本分析更受重視,并且在商業和政府輿情上可以得到很好地應用。如2017年新浪微輿情和哈工大推出“情緒地圖”,網民可以登入新浪輿情官方網站查詢任何關鍵詞的“情緒地圖”,這是語義情緒分析在輿情分析産業的首次正式應用。

繼續閱讀