【一文讀懂AlphaGo Zero算法】白話蒙特卡洛樹搜尋和ResNet

AlphaGo Zero 令人驚豔。不過，有些評論似乎渲染過度，把它的算法說得神乎其神。大數醫達創始人，CMU計算機學院暨機器人研究所博士鄧侃在本文中，嘗試用大白話，通俗地解釋 AlphaGo Zero，弄清楚蒙特卡洛樹搜尋（Monte Carlo Tree Search，MCTS）、深度學習啟發函數和置信上限這三大核心概念。

AlphaGo Zero 引起巨大社會轟動

隻告訴機器圍棋的基本規則，但是不告訴它人類摸索了上千年才總結出來的定式等圍棋戰術，讓機器完全依靠自學，打敗人類。這個題目不僅新鮮，而且熱辣。

上周 DeepMind AlphaGo 人工智能圍棋團隊的一篇新論文，題目是“Mastering the Game of Go without Human Knowledge”。

這篇論文不僅被頂級學術期刊 Nature 發表，而且立刻被媒體反複報導，引起社會熱議。

這篇論文讓人驚豔的亮點有四，

隻告訴機器圍棋規則，但是不告訴它定式等等人類總結的圍棋戰術，也不讓它讀人類棋手比賽的棋譜，讓機器完全自學成才。

機器完全靠自己摸索，自主總結出了定式等等圍棋戰術，而且還發現了人類上千年來沒有發現的定式。

從零開始，機器自學了不到 40 天，就超越了前一版 AlphaGo（AlphaGo Master），而 AlphaGo Master 幾個月前，曾以 60 : 0 的戰績，戰勝了當今幾乎所有人類圍棋高手。

AlphaGo Zero 的算法，比 AlphaGo Master 簡練很多。

不過，有些關于AlphaGo Zero 的評論，似乎渲染過度，把它的算法，說得神乎其神。本文嘗試用大白話，通俗地解釋一下 AlphaGo Zero 的算法。

AlphaGo Zero 的算法，說來并不複雜。了解清楚 Monte Carlo Tree Search、深度學習啟發函數和置信上限，這三個概念就行了。

Monte Carlo Tree Search：不窮舉所有組合，找到最優或次優位置

圍棋棋面總共有 19 * 19 = 361 個落子位置。假如電腦有足夠的計算能力，理論上來說，我們可以窮舉黑白雙方所有可能的落子位置，找到最優落子政策。

但是，如果窮舉黑白雙方所有可能的落子位置，各種組合的總數，大約是 250^150 數量級。這個數太大了，以至于用當今世界最強大雲計算系統，算幾十年也算不完。

有沒有不窮舉所有組合，就能找到最優或者次優落子政策的算法呢？有，Monte Carlo Tree Search 就是這樣一種算法。

剛剛開始教機器下圍棋的時候，機器除了規則，對圍棋一無所知。讓兩台機器對弈，分别執黑子與白子。隻要不違反規則，以均等機率，在所有合法的位置上，随意選擇一個地點落子。

黑方先行，它有 361 個合法投子位置。黑方先随機考慮一個候選位置，譬如天元（9，9）。開局是否投子在天元呢？取決于假如投子在此，是否有可能赢得勝利。如何估算赢得勝利的可能性呢？黑方模拟對局。

假如黑方第一手投子天元，那麼白方的第二手會投子哪裡呢？根據均等機率的初步政策，白方有 360 個合法位置，在任何一處投子的機率均等。假如白方的第二手投子在棋盤的最邊緣（0，0）。

接下去，黑方在剩餘的 359 個合法位置中，随機選擇一個落子位置。接下去白方投子。如此重複，直到終局。

完成這樣一次對局模拟的過程，上限是 361 手，計算成本很低。

假如黑白兩個機器，以黑方投子天元開局，一路亂走，最終以黑方勝利。那麼根據 Monto Carlo Tree Search 算法，投子天元的開局，有可能獲勝，那麼第一手，就真的投子天元。

假如一路亂走，最終黑方失敗，那麼黑方就換一個候選位置，再次模拟對局。假如第二次模拟對局以黑方獲勝，就投子在第二個位置。假如失敗，那就再換到第三個候選位置，第三次模拟對局。如此重複。

這樣反複亂走，收集到了第一批棋譜，當然，這些棋譜的水準，慘不忍睹。

水準之是以慘不忍睹，是因為 “以均等機率，在所有合法的位置上，随意選擇一個地點落子” 的下棋政策。

如何通過自學，不斷改進下棋政策？

AlphaGo Zero 用深度學習神經網絡來解決這個問題。

用深度學習網絡實作啟發函數

AlphaGo Zero 用 CNN 來改進圍棋投子政策。具體到 CNN 的系統架構，AlphaGo Zero 用的是 Residual 架構 ResNet。而 Residual 架構是其時任職于微軟亞洲研究院的中國人 Kaiming He、Xiangyu Zhang、Shaoqing Ren、Jian Sun，于 2015 年發明的。

ResNet 的輸入是目前的棋面 S_{t} 。它的輸出有兩個，

目前棋面 S_{t} 的赢率，v( S_{t} )，赢率就是最終獲勝的機率，是一個數值。

下一手投子的位置及其機率，P( a_{t+1} | S_{t} )，這是一個向量。投子的位置可能有多種，每個位置的機率不同，機率越高，說明在以往的棋譜中，經常投子在這個位置。

用先前收集到的棋譜，來訓練 ResNet，拟合輸入 S_{t}，以及輸出 P( a_{t+1} | S_{t} ) 向量和目前棋面的赢率 v( S_{t} )。

AlphaGo Zero 隻用機器自我對弈的棋譜，來訓練 ResNet。

當然，也可以用人類棋手的棋譜來訓練 ResNet。理論上來說，用人類棋手的棋譜來訓練 ResNet，AlphaGo Zero 的水準，會在更短時間内，獲得更快提升。

但是，即便不用人類棋手的棋譜，隻用機器自我對弈的棋譜，來訓練 ResNet，在短短 40 天内，AlphaGo Zero 就已經超越人類棋手的水準。這個速度，實在讓人驚豔。

ResNet 訓練好了以後，仍然用 Monte Carlo Tree Search，繼續讓機器自我對弈。隻不過把投子的政策，從均等機率的随機投子，改為根據 ResNet 的指導，來決定下一手的投子位置。

論文配圖：MCTS 使用神經網絡模拟落子選擇的過程

具體政策如下，

根據目前棋面 S_{t}，讓 ResNet 估算下一手可能的投子位置，a_{t+1}，及其機率 P( a_{t+1} | S_{t} )。

下一手的投子位置，a_{t+1} 有多種，每一種位置的赢率 v(S_{t+1}) ，和投子機率 P( a_{t+1} | S_{t} ) 不同。赢率和投子機率越高，得分越高。

赢率 v(S_{t+1}) 和投子機率 P( a_{t+1} | S_{t} ) ，是對以往棋譜的總結。而置信上限（Upper Confidence Bound，UCB ），是來鼓勵探索新的投子位置，越是以往很少投子的位置，UCB( a_{t+1} ) 得分越高。

綜合考慮下一手的棋面的赢率 v( S_{t+1} )，投子機率 P( a_{t+1} | S_{t} ) ，和置信上限 UCB( a_{t+1} )，給下一手的各個投子位置打分。取其中得分最高者，來指導 Monto Carlo Tree Search，決定下一個投子的位置。

用改進了投子政策的 Monte Carlo Tree Search，繼續讓機器自我對弈，這樣得到更多棋譜。然後，用這些棋譜，再次訓練 ResNet，提高赢率和投子機率的估算精度。如此循環重複，不斷提高 ResNet 的精度。

定式（Joseki）與投子位置熱力圖

投子機率 P( a_{t+1} | S_{t} ) ，反應了下一手投子位置的熱力圖。各個位置被投子的機率非常不均等，其中某些位置被投子的機率，比其它位置顯著地高。

這些位置，加上前面幾手的落子位置和相應的棋面，就是圍棋定式（Joseki）。

論文補充材料：訓練中AlphaGo Zero偏好的投子位置熱力圖

AlphaGo Zero 在五天以内，就通過機器自我對弈，總結出了常見的定式。

而人類發現這些定式，花費了幾百年。

更加令人驚豔的是，AlphaGo Zero 還發現了新的定式，而這些定式，人類迄今為止并沒有發現。

點選檢視大圖：在 2 小時時間限制下，AlphaGo Zero (20 個殘差子產品，訓練 3 天) 對戰 AlphaGo Lee 的 20 局，每局展示了前 100 步棋。

總結一下，AlphaGo Zero 的算法非常簡潔，Monte Carlo Tree Search + ResNet。

與傳統的 A* 算法比較一下，Monte Carlo Tree Search 隻是 A* 算法中的樹拓展的一種特例，而 ResNet 是 A* 算法中啟發函數的一種特例。

将深度強化學習和蒙特卡洛樹搜尋用于智能醫療

除了下圍棋，深度強化學習和蒙特卡洛樹搜尋已經用于智能醫療，給醫生推薦最佳後續化驗和檢查項目，補充病情描述，用最小的代價，找到診斷金名額，提高診斷精度。

11月8日，新智元AI World 2017世界人工智能大會，鄧侃博士将在 AI Industry 會場發表演講《多模态智能疾病診斷系統的四大技術難點》，該系統把 CNN、RNN、Attention、GAN、RL、MCTR、Knowledge Graph 等多種前沿技術融為一體，建構醫學智能診斷新體系。

鄧侃大數醫達創始人

CMU計算機學院暨機器人研究所博士

鄧侃，上海交通大學大學及碩士，美國卡内基梅隆大學（CMU）計算機學院暨機器人研究所博士，專攻人工智能及資料挖掘。曆任美國甲骨文公司（Oracle）主任系統架構師，美國泰為手機導航公司（Telenav）北京分公司總經理，百度進階總監并主管網頁搜尋和知識圖譜。2015年，鄧侃建立北京大數醫達科技有限公司，旨在将深度強化學習技術應用于醫療健康領域。

《多模态智能疾病診斷系統》演講重點介紹該系統以下 4 個方面的技術難點：

把多模态資料，都轉換成以醫療知識圖譜為軸心的語義向量，在同一個參照系下進行互相比較和交叉操作。

在知識圖譜為軸心的語義向量空間中，融合多模态資料，并使用生成對抗模型提供可行又可靠的品質評估方案。

用卷積神經網絡技術，從病情描述中提煉病情特征，用聚焦機制，從醫學知識圖譜中補充相應病理邏輯，優化疾病的診斷與驗證。

用深度強化學習和蒙特卡洛搜尋樹技術，給醫生推薦最佳後續化驗和檢查項目，補充病情描述，用最小的代價，找到診斷金名額，提高診斷精度。

原文釋出時間為：2017-10-25

本文作者：鄧侃

本文來自雲栖社群合作夥伴新智元，了解相關資訊可以關注“AI_era”微信公衆号

【一文讀懂AlphaGo Zero算法】白話蒙特卡洛樹搜尋和ResNet

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希