6 月 1 日,在微軟亞洲研究院(MSRA)的自然語言處理(NLP)主題溝通會上,副院長周明博士以《自然語言處理前沿技術》為主題,分享了不少 NLP 研究心得。

周明博士,圖檔來自微軟亞洲研究院微信
周明博士已經在 NLP 領域鑽研近 30 年,并已于去年當選國際計算語言學協會(ACL)候任主席。在過去的研究所學生涯中,周明博士已發表了 120 餘篇重要會議和期刊論文(包括 50 篇以上的 ACL 文章),擁有 40 餘項國際發明專利。
從 NLP 是什麼、MSRA 在 NLP 方向上的最新進展以及 NLP 技術的未來發展方向三部分,周明博士對 NLP 技術進行了全方位解讀。機器之心取其精華,以飨讀者。
NLP 是人工智能的開端,語言智能是人工智能皇冠上的明珠
資料的大幅增強、計算力的大幅提升、深度學習實作端對端的訓練,這些都是人工智能領域迎來第三次浪潮的原因。
在周明博士看來,促成這股浪潮的還有落地場景的出現。實實在在的場景如搜尋引擎、自動駕駛汽車等,給了使用者使用和回報(如搜尋引擎的使用者會為搜尋引擎提供訓練資料)的空間,系統就可以使用這些資料不斷提升。
在以計算、記憶為基礎的「運算智能」之上,是以聽覺、視覺、觸覺為代表的「感覺智能」,反映在人工智能技術上為語音識别和圖像識别。再之上則是「認知智能」,包含語言、知識和推理。金字塔的頂端,則是創造智能。
「語言智能是人工智能皇冠上的明珠」,周明博士說道。
作為國際計算語言學協會(ACL)候任主席、NLP 領域資深研究者,周明博士特别強調語言智能在人工智能領域的标志意義。「語言智能是人工智能皇冠上的明珠,如果語言智能能夠突破,與他同屬認知智能的知識和推理就會得到長足的發展,整個人工智能體系就會得到很好的推進,也有更多的場景可以落地。」
作為最早設立的部門之一,微軟亞洲研究院 NLP 研究組已經發表了超過 200 篇頂級會議文章,其中 ACL 論文超過 100 篇,COLING、EMNLP 論文超過 50 篇,IJCAI、AAAI、KDD、SIGIR 論文超過 50 篇。擁有超過 100 項專利,與 10 所高校建立聯合實驗室,并與超過 16 個高校建立合作。
其與中科院計算所合作開發的手語翻譯系統,還曾得到過 CEO 薩提亞·納德拉(Satya Nadella)上任後首次嘉獎。
機器翻譯、ChatBot…… MSRA NLP 有這四方向進展
機器翻譯
自 2007 年微軟基于統計的翻譯系統上線,到 2012 年在 21 世紀大會上展示實時語音翻譯系統,再到 2015 年 Skype Translator 實時語音翻譯技術上線、2016 年 Microsoft Translator Live Feature(現場翻譯功能)的推出,微軟從未放棄過在機器翻譯技術、産品方向上的探索。
目前微軟采用的是基于神經網絡的機器翻譯方法。通過對源語言句子使用 LSTM 進行雙向編碼,再通過 Attention 模型展現不同隐節點對翻譯某個目标詞的作用,逐詞生成目智語言直到句尾。
對于中間的某個階段可能會出現多個翻譯,微軟采用的方法是通過 beam search 方法保留最佳翻譯。神經網絡翻譯中其中最重要的技術是對源語言的編碼,以及展現不同詞彙翻譯不同作用的 Attention 模型。
MSRA 在機器翻譯上主要有如下 2 項進展,均發表在 ACL 上:
1、引入語言知識
編碼過程往往将源語言和目智語言看作字元串,并沒有體會語言内在的句法知識和修飾關系。通過将語言知識引入到神經網絡的編碼,可以得到更佳的翻譯。(具體名額見下圖)
2、引入領域知識(Domain Knowledge)
很多領域擁有知識圖譜的,可以納入到傳統的神經網絡機器翻譯中,以規劃語言了解的過程。基于的假設是不同語言的知識圖譜可能是一緻的,将輸入句子映射到知識圖譜,再基于知識圖譜增強解碼過程,使得譯文得到進一步改善。
在分享會現場,微軟亞洲研究院的研究員張冬冬還展示了微軟在機器翻譯上的最新進展——演講翻譯,所有人在進入統一虛拟會議室時都可以接收到母語言的演講内容(文字、語音),可以幫助提升跨語言會議交流效率。
演講翻譯系統浏覽器頁面,演講者的口述内容會被轉換為聆聽者設定的語言
對話即平台
由于人們已經逐漸習慣在手機上聊天的體驗,同時手機螢幕很小,相對來說語音的交流會更加自然。是以微軟認為圖形界面的下一代将是 CaaP,所謂「對話即平台」(Conversation as Platform,CaaP)。
作為 CaaP 的技術基礎,通用的對話引擎架構往往有兩層,下層為面向任務的對話、資訊服務和問答、通用聊天三個分别滿足使用者不同需求的系統,上層則為排程系統。通過排程系統完成任務的分類和配置設定,下層系統會根據不同的需求指向不同的 Bot,進而為使用者提供流暢的交流體驗。
通用對話引擎結構示意圖
為了更快速、更高效的開發 Bot,微軟推出了 Bot Framework。開發者隻用幾行語句,就能開發出滿足自己需求的 Bot。其中該架構抽取意圖和重要資訊的功能,由 LUIS(Language Understanding Intelligent Service,微軟語言了解服務)提供。
在與敦煌研究院合作的過程中,MSRA 通過使用微軟的聊天對話技術為敦煌研究院快速開發了相應的客服、聊天系統,并能輕松內建于同一平台。
閱讀了解
在語言之外,領域知識和常識往往在 NLP 中有非常重要的作用,閱讀了解正是檢測一個系統是否具備常識的最佳方式之一。
2016 年,斯坦福大學推出「NLP 領域的 ImageNet」——SQuAD 閱讀了解測試集,通過給定一篇文章并準備相應問題,由算法給出問題的答案。該資料集共有 536 篇文章,107785 個相應問題,并包含訓練、開發、測試三部分,評判标準分為精确比對和部分比對兩部分。
自去年 9 月至今,MSRA 一直在該資料集的測試結果上名列第一,名額為 76.922,但距離人類 82 左右的名額還有一定距離。
SQuAD 測試集測試結果,第一位、第四位均為 MSRA 團隊開發的算法系統
中國文化
MSRA 一直在考慮如何将機器翻譯與中國文化相結合,是以推出了一系列如微軟對聯、微軟字謎、微軟絕句等産品。
不久前 MSRA 還推出了詩歌創作功能,即使用者送出照片後可以得到與其意境相符的自由體詩歌,并已率先登陸小冰平台。
NLP 的未來會如何?
在周明博士看來,未來 5-10 年,NLP 技術走向成熟,并将迎來過去 60 年發展最迅速的時期。變化将會展現在如下 6 個部分:
- 口語機器翻譯完全普及:效果會得到提升,但并不意味着同聲翻譯、專業文獻徹底解決;
- 自然語言會話達到實用:在常見場景下,人類可以通過人機對話完成某些任務,與智能裝置交流,但不代表任何任務和不同語言都能達到實用;
- 智能客服+人工客服完美結合大大提高效率:問答、簡單的任務解決基本可以解決,複雜情況依然無法解決,需要人類智能和人工智能的結合;
- 自動寫詩、新聞、小說、流行歌曲流行起來:輸入資料後可以立刻生成新聞稿,人類隻需要進行校正,或面向不同的需求進行适用更改;
- 語音助手、物聯網、智能硬體、智能家居普及;
- 與其它 AI 技術共同在金融、法律、教育、醫療等垂直領域得到廣泛應用。
通過對趨勢的分析,MSRA 也制定了未來的研究方向,包括:
- 通過使用者畫像實作個性化服務:人類的對話是有對象的,目前機器還做不到;
- 通過可解釋的學習洞察人類智能機理:是否會出現可解釋的人工智能,可以進行修正和 debug,快速調整系統,目前還沒有很好的解決;
- 通過知識與深度學習結合提升學習效率;
- 通過遷移學習實作領域自适應;
- 通過強化學習實作自我演化:即通過顯式和隐式回報不斷提升系統;
- 通過無監督學習充分利用未标注資料。
在問答環節中,周明博士還回答了機器之心關心的 NLP 領域問題,比如 GAN 這種流行的學習方法對 NLP 領域是否有很大幫助?在周明博士看來,GAN 對于機器翻譯、資訊檢索的确會帶來幫助,微軟也正在研究使用 GAN 來提升機器翻譯。但目前 GAN 與 NLP 的結合仍處在開始階段,「并沒有突飛猛進」。