三問 Christopher Manning：超越模型存在的語言之美

「深度學習的波浪在計算語言學的海岸線上往複經年，而今已如海嘯一般向所有的自然語言處理（NLP）會議發起沖擊」。兩年前，在北京，Christopher Manning 如是展開了 ACL 2015 的結語。

事實上，自然語言處理領域就像一個處于環太平洋地震帶上的島國，地震與海嘯來了又去，島上的常住民已經習以為常。Manning 就是自然語言領域裡的這樣一位「常住民」。1993 年，《計算機語言學》雜志發行了一本特刊，專門讨論如何應用勢頭強勁的「經驗式方法」（empirical methods）。當時，取得了三個（！）學士學位（數學、計算機和語言學）的 Manning 正在斯坦福攻讀語言學博士學位。1999 年，《計算機語言學》雜志裡，至少一半的工作采用了經驗式的方法。這時候，Manning 帶着他油墨未幹的、重達 1.66 千克教科書《統計自然語言處理基礎》，作為斯坦福自然語言處理組（Stanford NLP Group）的創始成員回到了母校。這一待就是 18 年。18 年後的今天，當年的方法又被深度學習「拍死在沙灘上」成了前浪，但在學者之中，Chris Manning 與他的研究熱度絲毫不減。從樹形 RNN 到基于神經網絡的依存句法分析，Manning 毫無疑問是一位深度學習在 NLP 領域的開拓者。

然而，這位著作等身的學者對待深度學習的态度十分沖突。一方面他對「神經網絡的統治地位」毫不諱言：「2017 年 NLP 領域的共識是，無論研究什麼問題，丢個雙向 LSTM 模型一定能搞定它，不行再加個注意力子產品。」而另一方面，作為一位對語言的結構性深信不疑的研究者，他時常為簡單粗暴的神經網絡所取得的「令人驚訝的效果」感到「感傷」：「人類能夠了解彼此，不是因為我們會對聽到的詞做局部權重平均。然而在很多自然語言處理任務上，我們無法做出比使用權重平均效果更好的模型，這讓我非常擔心。」

圖：Manning 一份演講 PPT 裡的哭臉

欣慰也好，擔心也罷，深度學習已經不可避免地卷起驚濤，拍上堤岸，波及的範圍不止于學界，也到了業界，甚至公衆範圍中。在剛剛過去的七月裡，Facebook 由于多輪對話引擎效果欠佳而選擇關停，卻讓英國鏡報和福布斯這樣的老牌媒體翻出了壓箱底的黑客帝國劇照，祭出了《FB 人工智能發明自己語言引發工程師恐慌，緊急拔電源》這樣的标題，很是喧騰了一陣。

圖：引發恐慌的兩個小結巴

在嘈嘈切切的背景裡，自然語言之島上的「原住民」們過着怎樣的生活？八月，Manning 時隔兩年再次來到北京，機器之心帶着三個問題，與他談了談他的欣慰與擔心，他受到的影響與影響到的人，以及他的語言夢想與當下的選擇。

第一問：深度學習的流行有沒有改變自然語言處理的初衷？

一直以來，人們對「自然語言」寄予厚望，将其與「圖像」和「語音」并提，視作深度學習有望颠覆的第三個領域。然而自然語言與另外二者存在着顯著的不同：

圖像和語音領域都存在一個公認的主要任務：我們可以「解決」物體識别問題，可以「降低」詞錯誤率，領域裡的目标明确清晰。而自然語言的問題從一開始就超越了感覺層面進入了了解層面。即使是最「客觀」的機器翻譯，也不存在一個唯一的、百分之百正确的答案。

此外，由于語言的複雜性，語言學家花了大量的精力把語言這個大問題拆解成若幹諸如詞性标注、句法依存分析這樣的子任務（component task），以便計算機了解。但是這些建立在大量規則和假設之上的子任務或許會幫助機器了解人類語言，卻不見得是人類大腦使用語言的方法。是以，如果神經網絡是一個模拟大腦的結構，那麼為了讓它發揮出更大的作用，是不是應該重新定義需要解決的問題？

Manning 認為，總的來說研究者還是把深度學習視為工具在解決原來問題，畢竟深度學習的好用性就展現在，它幾乎能無差别提高所有自然語言任務的效果。而任務層面的思路轉變主要存在于兩方面：一是自然語言生成課題有了熱度。在過去至少十年的時間裡，研究者對語言生成都沒有什麼興趣，因為太難了。而神經網絡提供了一個做特定場景下自然語言生成的機會。二是确實存在研究興趣從子任務到端到端整體任務的遷移，如今熱門的機器翻譯、閱讀了解，都是典型的端到端任務。

而在任務的定義上，深度學習圈當下最大的疑惑是，分布式表示裡，語素表示（component representation）究竟有沒有作用，有多大作用。過去，自然語言學者在開始一項任務時會預設，學習詞性和句子文法結構是通向自然語言了解的必經之路。然而現在的端到端任務上，最好的深度學習模型幾乎都沒有利用任何語素知識。

學者們一直在就「使用語素表示是否必要」展開辯論。樂觀主義者選擇相信深度學習的學習機制可以學到所有。隻要提供更多文本，它就可以默默學會學習分布式表達、句法，然後完成端到端任務。另一群人，包括 Manning 自己，認為把額外資訊提供給深度學習模型是有用的，問題隻是怎麼做能達到最好的效果：是進行多任務學習，讓模型同時嘗試完成不同的子任務，進而引導它學習結構更好的、對文法更敏感的表達；還是仍然做一個流水線模型（pipeline model），像傳統的系統一樣，先學會句子結構，再接上後續的深度學習模型。「我确信會有把子任務結果合理融合進深度學習模型的機會。」Manning 這樣總結道。

第二問：聯結主義（connectionism）是否有可能與符号主義（symbolism）攜手并行？

「有！」他的回答毫不猶豫。

符号主義者認為人腦的認知過程和計算機的符号計算過程類似。資訊就像存儲在計算機裡的一串串的字元，而認知就像按照程式的指令依序生成字元串。然而聯結主義者認為，資訊是以非符号化的形式存在在神經網絡的神經元間權重裡的。認知是一個動态的分層的過程，每個神經元的激活與否取決于神經元間的權重和與其相連的神經元的活動情況。

當然，這兩派看似水火不容的觀點，也并非全無交點。Manning 就提到了一位試圖調和兩種範式的「實作型」聯結主義者： Paul Smolensky。Smolensky 是一位有實體背景的機器學習研究者，由于對語言學過于感興趣，最終成為了一名認知科學家。他覺得，人類大腦的「硬體」構造可能和現行的神經網絡不太一樣。它像神經網絡一樣，存在衆多分布式的、具有連續值的表示。但是很多進階的認知過程是在符号層面完成的。這個符号體系可能稍顯淩亂，比如随着時間推移，一個詞的意思乃至詞性都可能發生很大變化，但是大腦的語言、視覺以及其他很多工作（比如數學推理），可以說基本上是符号層面的。比如，人的眼睛接受到一個連續的畫面，但是出現在大腦裡的卻是小孩、椅子、桌子這樣的符号。是以 Smolensky 認為，你在你的大腦裡編碼了大量符号化的表達，然後，如同邏輯表達式的生成過程，你可以在腦海裡把符号表示結合在一起組成更大的表示，然後在這個層面完成計算。「我覺得這個大方向是對的」，Manning 說。

那麼，聯結主義和貝葉斯學派呢？

Manning 思索了一下，列舉了兩種可能的結合方式。一種是用分布式的表示代替先驗和證據，得到向量，計算似然率，然後在此之上完成類似貝葉斯網絡中的符号計算。但是，「坦白講，我總覺得這不太靠譜。」另一種則更多借鑒了貝葉斯網絡或者說貝葉斯統計的概念（你的心裡首先有一個先驗分布，然後會根據所見的證據更新你的認知），把神經網絡的結構看做一種先驗。例如，打算采用卷積神經網絡解決特定問題時，卷積結構就是要學習的模型的先驗。

此外，還有學者認為，人類的大腦可能具有貝葉斯風格的結構，但是這種模型放在機器上會變得非常昂貴而低效。考慮到神經網絡的效用，你可以把它看做一個可以近似貝葉斯網絡，可以用來快速地做推斷。Manning 對這種觀點的評價是，「我不知道這是不是一種正确的思考人類大腦結構的方式，但是它确實是一個能夠很好結合二者優點的思路。」

第三問：語言是不是序列的？序列模型是不是描述語言的最好方式？

Ted Chiang 在他榮獲 2000 年星雲獎的短篇小說《你一生的故事》裡，描述了一類被我們命名為「七肢桶」的外星人和他們的語言。他們的書面語言是一個完全獨立于口語存在的體系，不受「序列」這個條件的束縛，充分地利用了二維的空間。一個字就是一個小墨團，一段話就是一個大墨團，「順序」這個概念被抛棄了，從任意地方讀起都不會影響你的了解。語言的表象之下，是七肢桶不同于人類的思維方式。

人類的語言又真的是序列的嗎？後一個詞真的是由前幾個詞确定的嗎？如果說，雖然我們的表達是時序的，但思維是全局的，那麼序列模型真的是了解語言最好的模型嗎？

Manning 給出的答案是：語言不是序列的，但序列模型可能是當下綜合各種因素之後，最好的語言描述方式。

語言不是序列的。語言有一些序列的場景，人們在和彼此溝通的時候傳達的資訊是序列的，聲音是序列的，把字和詞組成句子的過程是序列的。但是，解讀序列的方法不一定是序列的。詞組成短語，短語又組成子句，語素間隐藏的聯系引出了代名詞，有了指代關系。一個句子宛如一棵樹，茂密的枝幹代表着繁多的結構，想要獲得最好的模型，就要捕捉這些結構。

事實上，Manning 早期的深度學習工作一直緻力于建構樹形模型，因為在他看來，樹形模型是捕捉語言不同于線性的視覺或者信号處理的結構特點的最簡途徑。然而近兩三年間，我們不難發現，他重點關注的的工作都基于序列模型。「聽起來很奇怪，因為好像在走回頭路。從某種意義上來講，也确實是在走回頭路。」他坦誠地承認了這一點。

走回頭路的原因則有很多。首先，純粹的序列模型對大資料而言非常有吸引力。想象一下：一個一條路走到底的、無需引入其他任何結構就能學習千萬級别的文本資料。二是它非常适合當下的硬體技術，樹形模型裡，任何「組成短語 A 還是短語 B」的選擇與嘗試都會損失 GPU 的高效性。反之，如果同時對大量資料進行同種運算，GPU 會非常快。是以，給定現有的硬體條件和資料情況，有非常多理由支援研究者選擇使用序列模型。

還有一些技術原因有待解決，比如，如果引入了句子結構就必然要做硬決策，硬決策沒法很好結合目前的學習算法（例如反向傳播）。結合不了就隻能用強化學習這樣的技巧，雖然近年研究強化學習的熱情很高，但是獲得一個好用的強化學習模型可比反向傳播模型難多了。

此外，關于是否要在深度學習模型中明确地将語言結構表達出來這一點，最近也有不少發現。盡管在序列模型裡，随着時間步長的推移你得到的隻是一個又一個大型的向量，但是深度學習模型非常高效的一點就在于，它給了研究者很大的靈活性去利用這些向量。在模型内部，它可以習得如何表達并利用特定的語言結構。

「是以，我認為序列模型很有效，但同時我不覺得它會是最終的自然語言解決方案。無論如何，最終我們會回到非序列模型，表達很多比序列更有趣的結構。」Manning 說。

結構，結構…… 如果讓一個足夠智能的關鍵詞提取模型分析我們的對話，「結構」這個詞無疑會排名關鍵詞第一。就連 Manning 自己最近的研究課題，關系抽取，也正瞄準了「從文本中到結構化資訊」這一主題。

「我們試圖從文本中建立知識庫。從科學期刊到娛樂雜志，把那些用來給『人』提供資訊的文章變成機器可用的結構化的知識庫形态。現在知識庫的建構還是一個純手工過程，還沒有技術能讓計算機『讀懂』文章然後自己建立知識庫。這和機器閱讀了解或者自動問答不同，不是一個『文本到文本』的過程。在知識庫的建構過程裡，資訊的彙總是無法通過浏覽純文字完成的，我們總要把人類語言變成結構化知識。」

而以結構為線索，我們也終于了解了 Manning 看似沖突實則非常統一而堅定的态度：他肯定神經網絡和序列模型的現在，因為它們在捕捉結構方面相比于其他模型确實有可取之處；他否定神經網絡和序列模型的未來，因為天然的局限性決定了它們就是無法捕捉到那些必不可少的結構；他在還沒有可行方法出現前相信聯結主義和符号主義的結合，因為大腦的結構、人類思維的結構就是這樣做結合的…… 我們也談到了中文在自然語言進行中的特殊性，「同樣做句子成分分析或者翻譯，中文就是比其他語言困難。因為它更模糊，沒有明确的時态變位、沒有文法性别，而且是少有的、可以自由地省略任何句子成分的語言。」正是這些變化無常的結構，讓再昂貴的語言模型也變得不完美，卻同時帶給人類無與倫比的美。

「我們的面前還有太多需要完成的工作」，談及模型與語言本身的差距，他嚴肅到近乎焦慮。「現在我們僅僅能夠用自然語言了解模型做一些非常非常簡單的小事。它們可能很好用，例如谷歌的自動回複，七分之一想要簡短回複對方的人會選擇用它來生成回答了。但是更為複雜的嘗試大多數都不成功。我們的技術還遠遠不夠好，大部分對話機器人仍然在使用非常簡單的機器學習文本分類器來确定對話的主題，然後用非常簡單的手寫規則完成一些填空工作給出一個回答，這個系統一點也不複雜，是以也做不了什麼非常有用的事情。雖然領域裡熱情很高，但我覺得在未來幾年裡，會有大部分努力宣告失敗吧。」

「我們的面前還有太多需要完成的工作」，他重複了一遍，停頓了一下，或許腦海裡逐一浮現了他樹狀的模型，圖狀的文本資訊，所有已完成的未完成的精妙結構…… 然後，他又變成了那個親和到近乎老頑童的 Chris Manning：「看樣子，短時間内我不會失業了。」

References:

[1] Chiang T. Story of your life. Arrival[M]. New York: Vintage Books, 2016:91-145.

[2] Domingos P. Master Algorithm[M]. Penguin Books, 2016.

[3] Garson J. Connectionism. California: Edward N. Z (ed.), 2016. [2017-08-25].

https://plato.stanford.edu/entries/connectionism/#ShaConBetConCla.

[4] Manning C D. Computational linguistics and deep learning[J]. Computational Linguistics, 2016.

[5] Manning C D, Schütze H. Foundations of statistical natural language processing[M]. Cambridge: MIT press, 1999.

[6] Pennington J, Socher R, Manning C. Glove: Global vectors for word representation[C]//Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP). 2014: 1532-1543.

And multiple keynotes of Christopher Manning: Tsinghua 2017, CIPS Summer School 2017, Simons Institute 2017, SIGIR 2016, ACL Tutorial 2016, Workshop on Vector Space Modeling for NLP 2015.

機器之心邀請您參加 2017 中國網際網路安全大會。更多詳情，點選「閱讀原文」進入活動官網。

三問 Christopher Manning：超越模型存在的語言之美

繼續閱讀

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希