中國人工智能學會通訊——深藍、沃森與AlphaGo

在 2016 年 3 月份，正當李世石與AlphaGo 進行人機大戰的時候，我曾經寫過一篇《人工智能的裡程碑：從深藍到AlphaGo》，自從 1997 年深藍戰勝卡斯帕羅夫之後，随着計算機硬體水準的提高，計算機象棋（包括國際象棋和中國象棋）水準有了很大的提高，達到了可以戰勝人類最高棋手的水準。但是，長期以來，在計算機圍棋上進展卻十分緩慢，在 2006 年引入了蒙特卡洛樹搜尋方法之後，也隻能達到業餘 5 段的水準。是以 AlphaGo 戰勝南韓棋手李世石，确實是人工智能發展曆程上的一個裡程碑式的事件。

從人工智能研究的角度來說，計算機圍棋戰勝人類高水準棋手是一個标志，說明在某些方面，現有的人工智能技術可以達到怎樣的高度，是以當時我曾經認為人機再戰的意思已經不大，就如同當年深藍戰勝卡斯帕羅夫之後，IBM 随即馬放南山，即便卡斯帕羅夫提出再戰深藍，IBM 也不再理會。當年的深藍還是一個專用裝置，IBM 甚至為了提高計算速度，而研制了專用的晶片（據說該晶片隻能用于下國際象棋）。但是萬事開頭難，随着計算機計算

能力的提高，今天即便在普通計算機上，也可以達到甚至超過當年深藍的水準。以至于在國際象棋比賽中，出現過棋手借去廁所的機會，讓計算機幫忙出招的醜聞。在現在的國際象棋比賽中，已經明确禁止利用各種計算裝置，據說賽場也對網絡進行屏蔽，以防止有人作弊。

就在 2016 年即将過去的時候，在網絡上突然出現一個名為 Master 的計算機圍棋程式，在網上快棋賽中，連勝包括中日韓三國高手在内的人類棋手，取得連勝60 場的輝煌戰績。事後得知，Master 就是AlphaGo 的更新版。

為什麼 AlphaGo 會重出江湖呢？我想可以從 AlphaGo 與深藍的不同來考慮。深藍采用的是 α-β 搜尋架構，加上大量的人類知識，在技術上已經沒有什麼發展空間。而AlphaGo采用的是蒙特卡洛樹搜尋架構，加上深度學習和深度強化學習。在這樣一個架構下，深度學習，尤其是深度強化學習在計算機圍棋上的天花闆究竟有多高？還是一個未知數，從技術的角度來說，還有很大的研究空間，我想這是 AlphaGo 重出江湖的重要原因，圍棋在這裡隻是作為一個應用對象，目的還是研究強化學習等方法。

順便在這裡說一下，有人認為 AlphaGo的成功是深度學習的勝利，我認為這一看法是片面的。具體來說，蒙特卡洛樹搜尋引入到計算機圍棋中，是一個很大的飛躍；深度學習和強化學習的引入，是又一次飛躍。是以 AlphaGo 的成功是蒙特卡洛樹搜尋加深度學習的勝利。如果再上升一個層次來考慮，則是人工智能中傳統的符号主義加連接配接主義的成功。如果再進一步上升

一個層次，則是理性加感性的成功。是以，在今天深度學習大熱的情況下，不能忽視傳統方法的作用。傳統方法與深度學習具有互補性，應該加強這方面的研究，而不是一窩蜂式的湧向深度學習。

中國人工智能學會通訊——深藍、沃森與AlphaGo

那麼這次的 Master 與去年 3 月份的AlphaGo 有什麼不同呢？（為了叙述友善，下文中 AlphaGo 特指去年 3 月的版本，Master 特指現在的版本。）到目前為止，DeepMind 公司還沒有透露出任何資訊，隻能從表面現象去分析、猜測。我并不懂圍棋，為了了解 Master 的特點，在網上看了不少專業棋手對 Master 棋譜的分析，一個突出的感受是，Master 常常會走出一些超出職業棋手想象的驚人之步，很多高手連呼看不懂，但又找不出其破綻。古力在其微網誌上說，Master 的出現“已經徹底颠覆了我們棋手對局勢原有的掌控、判斷”，柯潔也評論說 Master“給我們棋手帶來的震撼”。雖然 AlphaGo 也有出乎職業棋手意外的着法，但是這次 Master 這樣的走法更多，更出乎意外。鑒于此，我曾經給出一個猜測：“AlphaGo 訓練時用到了 16 萬人類棋譜，加上自己左右互搏産生的 3 000 萬棋譜，以及人類總結的幾萬個模式。而這次的 Master很可能是從 0 開始學習得到的結果（指沒有利用任何人類棋譜和知識，依靠基于強化學習的左右互搏進行學習），在蒙特卡洛搜尋樹的架構下，加上深度強化學習方法，是可以做得到的。這也是為什麼 Master 讓職業棋手感覺到被颠覆的原因，因為沒有任何人類的影響。AlphaGo 在去年 3 月時雖然有驚人的走法，但好像沒有這次多，也沒有這次大膽，因為 3 月的 AlphaGo 利用了 16 萬的人類棋譜和數萬個人類總結的模式”。雖然事後 DeepMind 公司說 Master 還是用了人類棋譜，但是很可能更加加強了基于強化學習的左右互搏的成分，弱化了人類棋譜的作用。事實上，DeepMind 公司也确實在試探從 0學習的系統，雖然還沒有推出。

在我的“人工智能導論”課上，學生要完成一個大作業，就是實作一個簡單的下棋程式。最初幾年，學生基本是采用 α-β 剪枝的方法，要自己總結很多模式出來，後來漸漸地采用蒙特卡洛樹搜尋方法的同學逐年增加，到現在基本沒有同學用 α-β 剪枝方法了，也不再需要人為總結什麼模式了，基本都是從 0 開始，而且水準也是逐年提高，絕大多數同學都難于戰勝自己的程式。當然，大作業的棋類比較簡單，遠遠無法跟圍棋比，但是越來越不依賴于人類棋譜、知識，應該是一個發展趨勢，圍棋也應該可以實作，可能還需要更強大的計算平台的支援。關于大作業，我曾在 2013 年的部落格中有過簡單的總結，表明過類似的看法，有興趣的讀者可以參見《由大作業想到的》這篇部落格 http://blog.sina.com.cn/s/blog_73040b820101bwrl.html。

深藍、沃森和 AlphaGo 都可以算是人工智能發展史上裡程碑式的事件，那麼它們之間有哪些相同與不同呢？

關于相同點，我想可以總結為一句話：在一個特定領域，利用人類提供的資料或者知識，采用已有的技術，戰勝該領域最高水準的人類。

深藍是一個國際象棋程式，采用的是20 世紀 60 年代就提出的 α-β 剪枝算法，IBM 公司聘請了若幹個國際象棋特級大師總結下棋的模式和知識，用于對局面的評估。最終于 1997 年戰勝了連續 10 年國際象棋世界冠軍卡斯帕羅夫。

沃森是 IBM 為了紀念公司成立 100 周年研發的一個問答系統，其名稱是為了紀念IBM 公司的創始人 Thomas J. Watson 先生。2011 年在美國最受歡迎的智力競猜電視節目《危險邊緣》中，沃森擊敗該節目曆史上兩位最成功的選手肯•詹甯斯和布拉德•魯特，成為《危險邊緣》節目新的王者。在沃森系統中，共采用了 100 多項與自然語言處理、知識問答相關的技術，利用《危險邊緣》節目創始以來40多年的問題與答案進行訓練，存儲了大量圖書、新聞和電影劇本資料、辭海、文選和《世界圖書百科全書》等數百萬份資料，在 3 秒内可以給出一個問題的答案。

中國人工智能學會通訊——深藍、沃森與AlphaGo

AlphaGo 在蒙特卡洛樹搜尋的架構下，利用深度學習和強化學習技術進行訓練和評估，其中用到了人類棋手以往的 16 萬盤棋譜，以及 AlphaGo 自己左右互搏産生的3 000 萬盤棋譜，并用到了人類總結的幾萬個模式，綜合運用這些技術，實作了高水準的圍棋程式，并于 2016 年 3 月以 4:1 的成績戰勝了南韓圍棋職業高手李世石。這些技術也并不是新技術，但是 DeepMind 公

司有所創新，主要包括兩個方面，一是發展了強化學習技術；二是将傳統的搜尋技術與深度學習在圍棋這個平台上，很好地結合在一起，實作了理性與感性的良好融合。這可能是 AlphaGo 成功的關鍵所在。

這是它們共同的部分，那麼這三個系統有哪些不同呢？三個系統完全是三個不同的領域，不同點自然很多，下面隻從技術是否通用，以及通用程度方面展開讨論。

深藍采用的 α-β 剪枝算法是專門用于雙人博弈問題的算法，雖然也有人将該方法用于其他方面，比如故障診斷的測試點選擇，但應用面是非常有限的，是一個非常專用的算法。也曾聽有人介紹說，IBM 會把相關方法用于風險投資，但事後也沒有聽到相關消息。這也可能是 IBM 不再繼續投入開展研究的原因吧？

AlphaGo 則有很大的不同，深度學習是個通用方法，已經在很多領域得到很好的應用，強化學習也具有一定的通用性，并且 DeepMind 對其有所發展和創新，在圍棋這個平台上可以繼續開展研究，也可以推廣到其他領域。但是圍棋這類博弈遊戲有一個特點，其最終的勝負可以自動判斷，不需要人類标注，這就為系統自身的左右互搏、強化學習提供了很大的便利條件，如果在其他領域應用，需要定義合适的優化條件才可行。

在三個裡程碑式的事件中，我認為最具通用性的是沃森，它采用了 100 多項與自然語言處理、知識問答相關的技術，這些技術可以在很多應用領域發揮作用，不僅僅是用于問答，IBM 公司把相關技術稱之為認知計算。IBM 公司以此為契機，成立了沃森集團，專注于認知計算的研究和應用，已經在醫療健康領域取得了很好的成果。

是以，從通用性和商用性的角度來說，三個系統中排名第一的是沃森，其系統隻要結合相關領域的資料，可以很快進行商用轉化，提供服務；其次是 AlphaGo，直接轉換到其他領域，提供商用服務的可能性不大，但其技術可以應用于其他領域；排在最後的就是深藍了，向其他領域轉化的可能性很小。

AlphaGo（包括 Master）的出現，對于圍棋有什麼影響呢？有人認為這會毀了圍棋，人類根本就戰勝不了機器，再學習圍棋還有什麼意義呢？我認為這種看法是不正确的。AlphaGo 的出現，說明人類對圍棋的認識遠遠不夠，在計算機的輔助下研究圍棋，必将對圍棋有新的認識，就如同當年吳清源先生的出現一樣，即将開啟圍棋的新天地。

其實圍棋界也有類似的認識。職業棋手古力說，“我深深地感受到圍棋的神秘，似乎‘大師’（指 Master）給我們打開一道圍棋的神秘之門。不論勝負，人類與人工智能共同探索圍棋世界的大幕即将拉開，新一次的圍棋革命正在進行着”。職業棋手排名第一的柯潔也提到，“人類數千年的實戰演練進化，計算機卻告訴我們人類全是錯的。我覺得，甚至沒有一個人沾到圍棋真理的邊。但我想說，從現在開始，我們棋手将結合計算機，邁進全新的領域、達到全新的境界。新的風暴即将來襲，我将盡我所有的智慧終極一戰！”

從科學發展史上來看，每次危機的出現，都預示着新的革命即将開始，比如數學上的幾次悖論的出現，都孕育出新的數學方法，極大地推進了數學的發展。我們期待着 AlphaGo 能開放出來，可以讓棋手們自由地與它對弈，甚至可以像圍棋複盤一樣，和計算機一起探索可能的走法，勝負已經不是關鍵，重要的是發展新的圍棋理論，讓圍棋走向一個新天地。

中國人工智能學會通訊——深藍、沃森與AlphaGo

清華大學計算機系教授，博士生導師，中國人工智能學會副理事長，中國中文資訊學會副理事長。主要研究方向為智能資訊處理，包括文本資訊檢索、網絡使用者行為分析、個性化推薦、社交媒體分析等。

中國人工智能學會通訊——深藍、沃森與AlphaGo

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

計算機開路人阿蘭·圖靈

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

基礎算法之二分查找

人工智能如何有效地運用于自然語言處理

poj3249

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

PAT 1089 Insert or Merge[難]

無人機--飛控科普