柯潔第二局投子認負，獨家專訪AlphaGo開發者導師Martin Müller

在 23 日的首輪比賽中，AlphaGo 以四分之一子的優勢，

。赢得比賽後，這場人機大戰引起了人們廣泛的關注和讨論。DeepMind 也在賽後分析解讀了

，表示目前版本 AlphaGo Master 的棋力，較與李世乭對弈的 AlphaGo 版本有三子提升，就連柯潔本人也在微網誌上表達了自己的「震驚」：

經過了一天的休整，今天上午 10:30 第二輪 AlphaGo 與柯潔的比賽正式開始，機器之心記者再次來到比賽現場見證這場「世紀之戰」。和第一局比賽一樣，在現場報道之外，機器之心還邀請到阿爾伯塔大學教授、計算機圍棋頂級專家 Martin Müller 以及《深度強化學習綜述》論文作者李玉喜博士，共同觀看了比賽直播。

在觀戰的同時，機器之心就第一天比賽後讀者關心的一些問題向 Martin Müller 教授進行了采訪，更為細緻地解讀這場人機大戰。

Martin Müller 教授（中）所帶領的團隊，在博弈樹搜尋和規劃的蒙特卡洛方法、大規模并行搜尋群組合博弈論方面頗有建樹，David Silver 與黃士傑（Aja Huang）都曾師從于他。李玉喜博士（右）是加拿大阿爾伯塔大學計算機系博士、博士後，緻力于深度學習、強化學習、機器學習等前沿技術及其應用。

5 月25 日上午 10:30，第二局比賽開始，中國棋院院長華以剛主裁，由古力搭檔張璇、周睿羊（阿爾法羊）搭檔劉菁講解，圍棋大師聶衛平也來到了比賽現場。

黃士傑博士代 AlphaGo 執黑棋在右下角先落一子，柯潔執白點了三三，随後 AlphaGo 走了左下三三。AlphaGo 的大局感依舊，虛招上很難猜測。在前幾步布局之後，兩方很快在局部展開争鬥，局面變得極為複雜。

在左下角出現打劫情形後，Hassabis 表示，此時在 AlphaGo 的計算中，柯潔的表現是完美的。

随後 AlphaGo 和柯潔圍繞打劫展開了博弈，但在 AlphaGo 下出第 133 手後，局面開始逐漸向計算機傾斜。之後柯潔的一步失誤進一步加大了 AlphaGo 的優勢，并将優勢轉換為勝勢，為這個優勢一直延續到比賽結束，确定了 AlphaGo 的最終勝利。行至 154 步，柯潔投子認負。

AlphaGo 的獲勝已經毫不令人意外了，甚至我們已經可以預料到後天（即 GMIS 2017 大會的第一天）最後一場比賽的結局了。明天，除了古力+AlphaGo 對戰連笑+AlphaGo 的人機配對賽外，AlphaGo 還将和人類棋手展開配對賽和單挑五位職業棋手聯盟。AlphaGo 在與人類合作以及對抗人類集體智慧上還将有什麼出人意料的表現和結果，讓我們拭目以待。

在第一天直播過程中和比賽結束之後，機器之心就觀衆們關心的幾個問題對 Martin Müller 進行了采訪，整理如下：

關于第一局比賽

機器之心：柯潔和 AlphaGo 的差距是否隻有 1/4 子那麼小？

Martin Müller：大多數職業棋手認為 AlphaGo 在第一盤棋的中期已經獲得了很大的領先優勢，于是它在後期選擇了保守政策，并保持住了領先，是以人和電腦的棋藝差距并不能用 1/4 子來衡量。但是我們無法知道 AlphaGo 在想什麼，無法知曉它的真正政策是否在最後選擇了「保守」。

機器之心：AlphaGo 已經是讓人類九段 3 子的水準？

Martin Müller：昨天，DeepMind 随後在補充說明中表示，讓 3 子的水準是 AlphaGo 與舊版 AlphaGo 對弈的估算結果，并不能代表真實水準。因為同類型系統自我對弈可能無法發現一些潛在的問題。如果是與其他計算機系統，或者棋手下棋，AlphaGo 會面臨其他棋風，它的對手們可能會發現一些系統的盲點，進而取得優勢。是以我們不能認為 AlphaGo 的水準已經達到讓全人類 3 子了。

機器之心：DeepMind 在昨天的釋出會上表示新一代 AlphaGo 是單機版，隻需要 4 個第一代 TPU，效率提升了 10 倍。你認為它是如何做到的？是否會為了效率犧牲了準确度？

Martin Müller：AlphaGo 的确是在去年有了很大的提升，在與李世乭比賽結束後，DeepMind 中的一個我的學生告訴我，他們當時還有很多的改進方法因為沒有足夠時間無法實施，現在經過了一年時間，他們有足夠的時間來改進這個系統，10 倍效率的提升果然不同凡響。

AlphaGo 背後的技術

機器之心：如何更好地描述 AlphaGo 機器學習算法和蒙特卡洛樹搜尋之間的關系？

Martin Müller：AlphaGo 的學習過程是線下的。它通常是先發展出若幹神經網絡，留在比賽中使用。蒙特卡洛樹搜尋（MCTS）是其主要的決策算法，用于決定一局比賽中每一步棋。MCTS 結合了博弈樹搜尋、機器學習到的知識和模拟的全局遊戲來決定每一步。這些知識中最重要的部分是上面提到的深度神經網絡。其中有一個網絡（政策網絡）選擇搜尋中最有希望的走子，另一個網絡（價值網絡）可以評估其在搜尋中遇到的數千乃至數百萬個棋盤局面。

機器之心：從與李世乭的比賽到現在，AlphaGo 有何改進？

Martin Müller：我不知道細節，而且也正急切期待 DeepMind 釋出相關資訊。但我聽說最重要的改進是使用機器學習建立博弈訓練的過程。在之前的版本中，這些訓練博弈是通過一個強大的政策網絡建立的，沒有任何搜尋。在這個新版本中，這些博弈是完全使用 AlphaGo 引擎建立的。這會慢很多，因為其每一步都涉及到一次樹搜尋，但其可以産出品質高得多的博弈，進而可以基于此學習到下個版本的 AlphaGo。然後再重複這個過程。

機器之心：人工智能科學家能夠把 AlphaGo 的機器學習算法用到其他研究或應用中嗎？

Martin Müller：是的。深度卷積神經網絡的思想實際上來自于圖像處理，而由于其視覺的本質，其已經在圍棋中得到了應用。AlphaGo 中所使用的另一種強大的學習方法是強化學習，這是目前最熱門的主題之一。更一般而言，結合了機器學習到的知識和深度搜尋與模拟技術的現代啟發式搜尋方法在許多決策問題上都有很大的潛力。

機器之心：Hassabis 昨天說要把相關技術開源，這是否會催生出新的技術進步？

Martin Müller：DeepMind 提到會在下個月

未來及其它

機器之心：在柯潔與 AlphaGo 的比賽結束後，你有何期望？

Martin Müller：柯潔已經聲明說這将是他與人工智能最後的比賽。我希望他會改變他的想法。

我希望 DeepMind 将會将 AlphaGo 的權限提供給每一個人，比如，通過谷歌雲。

這個團隊承諾會釋出有關目前版本背後的科學的文章，人工智能研究者都很期待。

其它圍棋程式開發者将非常想跟上 AlphaGo 的腳步。尤其是，騰訊有一個強大的人工智能團隊，他們已經開發出了目前世界第二的程式絕藝（FineArt）。我認為在 DeepMind 引領的進步的帶動下，我們将很快就會有多個超人水準的程式。我希望它們其中一些将會開源，而且我期待看到未來它們之間的精彩比賽。

機器之心：對明天史無前例的團體賽的展望？

Martin Müller：我覺得團體賽有點像婚姻（笑），能否成功取決于隊友之間的配合程度，如果之前五名棋手有過針對性的訓練，結果應該會比一個人要好。

而與 AlphaGo 配合共同進行比賽會非常地有趣。在國際象棋運動中，也有過人類與計算機配合共同下棋的經曆，事實證明與計算機配合可以減少兩方的錯誤，提高總體水準。但對于圍棋而言，對弈雙方面臨着更複雜的局面，是以這種組合是否能夠将圍棋水準提升到一個新的高度還是未知的。

Martin Müller 将作為演講嘉賓亮相 5 月 27 日- 28 日機器之心舉辦的 GMIS 2017 大會上，他将帶來主題為「深度學習時代的啟發式搜尋（Heuristic Search in the Age of Deep Learning）」的演講。擷取人機大戰和全球機器智能峰會的最新資訊，請點選閱讀原文或關注大會官網 gmis.jiqizhixin.com。

點選閱讀原文，報名參與機器之心 GMIS 2017 ↓↓↓

柯潔第二局投子認負，獨家專訪AlphaGo開發者導師Martin Müller

繼續閱讀

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希