李世石扳回一局！如何借助棋類遊戲擴充人工智能極限？

多年之後，當李世石寫起自己的回憶錄時，他一定不會忘記那年春天的七個日夜，那或許是他一生中最難過（忘）的一周。從賽前的「信心滿滿」到第一天的「驚訝」；從第二天的「無話可說」再到第三天的絕望。但最應該讓李世石及我們銘記的卻是此次挑戰賽勝敗已定的第四天——李世石在連輸 AlphaGo 3局後，在第4局憑借自己的絕妙應對和頑強抵抗上演了一場驚天逆轉，當幾乎所有人都對人類戰勝 AlphaGo 失去信心時，卻依靠人類棋手的強大潛能扳回了一局。

比賽一開始李世石就被 AlphaGo 強勢壓制，每一步棋考慮的時間都很長，當李世石的正常時間還剩6分鐘時，場面處于極大劣勢，而此時 AlphaGo 的正常時間還剩1小時14分鐘，甚至古力當時都表示「比賽會在幾分鐘内分出勝負」。之後風雲突變，李世石在78手弈出治孤妙手，局部出棋！緻使 AlphaGo 連出多次昏招。而已經進入讀秒階段的李世石則好像完全卸下了連輸三局的壓力，異常冷靜沉着的應對棋局，不斷積累自己的優勢。古力九段表示「如果是自己，現在 AlphaGo 的獲勝機會隻有10%了。但目前李世石時間太少，容易使棋手出現失誤。」之後，李世石的表現近乎完美，非常穩定的将優勢保持到最後，并首次讓 AlphaGo 主動認輸，将總比分扳成1:3。

樊麾在接受機器之心專訪時所言：「它（AlphaGo ）就像一堵牆」在「這堵牆」面前，或許我們不應該再去糾結人類是否能夠在圍棋（或者棋類遊戲）上打敗機器。就像DeepMind AlphaGo項目負責人 David Silver 在第二局比賽開始前所說，我們想通過與頂級選手的比賽來觀察AlphaGo是否有自己的比賽風格，是否能出現一些富有「創造力」的東西，這是我們選擇與李世石對戰的所有原因，我們需要真正能夠推動AlphaGo繼續向前進步的人，嘗試不同的東西去挑戰AlphaGo的極限，讓我們可以看到AlphaGo如何應對一些新的情況，我們創造了它，但我們現在也隻有靜靜地站在旁邊，像其他人一樣看着它的表現。

今天的AlphaGo位我們帶來了一種新的表現，不會因為它敗給李世石而使人工智能技術受到質疑，就像李世石在前三局輸給它之後而使圍棋受到質疑一樣。這本來就是一次人工智能技術的偉大試驗，而縱觀人工智能發展的曆史，出現了許多這樣的測試。是以，在AlphaGo與李世石的對戰背後，有一個更深層次的問題值得我們思考：為什麼棋類遊戲對于人工智能如此重要？

人工智能與棋牌遊戲的曆史

如果追溯曆史，人工智能與遊戲的曆史淵遠可以追溯到18世紀晚期，奧地利的沃爾夫岡·馮·肯佩倫制造了一個可以下棋的「機器」，在84年的「職業生涯」裡，這台機器幾乎擊敗了所有的人類挑戰者，甚至包括大名鼎鼎的拿破侖·波拿巴和本傑明·富蘭克林。但這終究隻是一場騙局，這台機器裡藏有一個象棋高手，整個機器也以複雜的構造誤導觀衆，進而能保證藏在機器裡的人不被發現。

土耳其行棋傀儡的版畫，來自1784年卡爾·戈特利布·馮·溫迪施的作品《無生命的原因》

現代意義上的人工智能與棋類遊戲的暧昧情節始于1956年，是的，就是包括約翰·麥卡錫、馬文·明斯基等人創造出「人工智能」一詞的那一年。Arthur Samuel 創造了一種西洋跳棋的應用程式，并使用強化學習來訓練這個程式。1962年的時候，Arthur Samuel 的這個西洋跳棋程式打敗了當時全美最強的業餘選手 Robert Nealey。

西洋跳棋是一種兩人棋盤遊戲。玩家的棋子都是沿斜角走的。棋子可跳過敵方的棋子并吃掉它。它的曆史比囯際象棋長久，始祖為中東跳棋。西洋跳棋的玩法有很多。最流行的遊戲形式是被稱為國際跳棋的波蘭跳棋，其次為英國跳棋。

不過，機器就赢了一場，其他幾次對決中，機器完敗。盡管如此，一場比賽的勝利還是讓當時方興未艾的人工智能研究着實興奮了一把，畢竟，這是機器第一次戰勝了人類。

Arthur Samuel 在IBM 701計算機上展示它的西洋跳棋

随着西洋跳棋程式的不斷進化，上世紀80年代晚期時候，機器已經可以打敗頂尖的人類選手。西洋跳棋領域最後一場人機大戰發生在1996年，一個名叫「Chinook」的程式完勝人類選手。2007年，Chinook的開發者們在《科學》雜志發明論文稱：Chinook已經解決了西洋跳棋領域的所有難題，Chinook可以打敗任何一個對手——不論這個對手是機器還是人類。一個值得玩味的事實是，就在Chinook開發者們宣傳Chinook 不會失敗的前幾天，或許是人類曆史上最偉大的西洋跳棋選手Marion Tinsley 去世。這留個世人諸多疑問：Marion Tinsley 會成為Chinook 克星嗎？或者這是人類時代結束而機器時代開始的前兆嗎？

與西洋跳棋程式同時進化的還有十五子棋（又叫西洋雙陸棋，它是一種古老的棋盤遊戲，在棋盤或桌子上，靠擲兩枚骰子決定走棋的步數，比賽的目的是要使自己的棋子先到達終點。這種棋戲把運氣和技術結合在一起，通常兩者對取勝都不可缺少。此類棋戲從20世紀後期開始風靡于世。）

十五子棋

1979年，Hans Berliner 開發的 BKG 9.8 應用程式以7:1 的大比分打敗了當時十五子棋的人類冠軍 Luigi Villa。盡管 Berliner 和 Villa 都認為機器的勝利存在某種僥幸，但當時的電視轉播評論員仍然抑制不住震撼「我不希望機器人來到新聞廣播行業。」這可謂是又一個機器戰勝人類的重要時刻。 BKG 9.8 之後，包括 TD-Gammon 以及随後的應用程式都要比人類玩得更好。

值得一提的是，「投身」十五子棋的 TD-Gammon 與如今無情「碾壓」李世石的 alphaGo 在技術層面很相似，他們都采用神經網絡模型，并運用了強化學習的方法（當然，AlphaGo 還有其他技術的融合），60年前的 Samuel 也用這種方法訓練自己的西洋跳棋應用。強化學習可以讓這些遊戲程式學到超越人類教練水準的技巧或知識，比如遊戲程式可以「自己向自己學習」。客觀意義上，十五子棋的愛好者們完全可以向TD-Gammon 學習相關知識，将其作為自己的教練。

接下來就是國際象棋。在Arthur Samuel 打造他的西洋跳棋程式之前，克勞德·香農（資訊論的開山鼻祖、同時也是「人工智能」一詞的提出者）在1950年認為，國際象棋對人工智能研究來說是一項令人興奮的挑戰。「這個問題的解決方案将迫使我們承認機器是否能夠思考的可能性，以及重新定義所謂思考的概念」。

但香農的預言顯然是錯了，在1997年IBM 的深藍打敗卡斯帕洛夫之後，人類并沒有遇到上述難題的困擾。于是，在幾乎所有棋類遊戲被機器征服之後，唯一剩下的就是起源于中國的圍棋。一方面，當西方的機器打敗所有西方的棋類遊戲後，站在東方人的舞台，向象征東方人最高思維難度的圍棋宣戰，這裡有太多隐喻。另一方面，人工智能研究者們孜孜不倦的挑戰各種棋類運動，也正是因為這些棋類提供了一種可衡量和可比較的标準。

為什麼是圍棋？

所謂可衡量的标準，部分原因就在于我們還無法了解「智能」一詞。這也的确是一件頗為諷刺的事情，當人類還不清楚自身的「智能」時，卻為了機器智能而奔波忙碌。

美國心理學家 Louis Lean Thurstone 在1920年代的研究中發現，一些受訪者在回答問題時更傾向于回答一些相對意義或者比較意義的問題，比如類似這樣的問題「你更喜歡誰的畫，Kandinsky 還是 Rothko？」就比單純回答「你對Kandinsky 畫喜歡多少？」要容易簡單的多。這套理論被稱為「比較性判斷準則（Law of Comparative Judgement）」。通過讓人們每次比較多個對象中的兩個，而最終可以計算出每個對象的測量分數（定距尺度）。其運用範圍非常廣泛，也被應用到機器學習領域。

Thurstone 的理論展示

按照Thurstone 的理論，棋類遊戲就成為測量人類與機器的一種工具。如果說棋類遊戲代表了智慧與智能，那麼比賽的結果就能展現出人類與機器在這個領域的強弱。而在國際象棋領域，ELO排名體系是棋手最看重的排名。這個排名的最大重點，在于強手打敗弱手時，賺不了多少積分；反之就能賺比平常多的積分。每位參賽者都有一個實力值，實力值越高則排位越前。某種意義上說，排名也就是勝負關系的預測。

ELO排名體系不僅僅适用與人類選手，在深藍打敗卡斯帕洛夫之後，多個國際象棋計算機程式在ELO排名體系上超過3300分。這個分數意味着這些計算機程式幾乎可以打敗任何一個人類選手。計算機科學家、國際象棋大師Ken Regan 的研究發現，如今的國際象棋已經進入到一個穩定期：機器之間的比賽分不出勝負，而人類在機器面前毫無勝算。

當國際象棋最終被機器征服之後，還有哪些衡量标準呢？

人工智能研究者也沒有放棄對撲克的研究。相對于國際象棋和圍棋，撲克沒有所謂的完美資訊：玩家們無法擷取已發生事件的全部資訊，諸如對手的底牌。比如雖然德州撲克的缺失資訊比西洋跳棋少，但是這種不完美資訊的特質計算機挑戰德州撲克的難度頗大。

再來看個可能的測量标準，RoboCup。這是是一種完全機器人參與足球比賽，是目前國際上級别最高、規模最大、影響最廣泛的機器人賽事。那麼問題就來了，有沒有可能将人類選手放在這些比賽裡？或者再腦動一下，有沒有可能将無人駕駛汽車（特别說明的是，納斯卡的無人駕駛和谷歌、特斯拉的無人駕駛并不一樣）放到納斯卡或F1比賽中？

對于任何一個遊戲來說，其規則的複雜性往往成為計算機能否快速并最終戰勝人類的重要原因。Bill Robertie，三項棋牌遊戲（國際象棋，撲克，西洋雙陸）比賽的世界級專家曾做過一個統計，如下圖所示，相較于國際象棋和西洋跳棋，圍棋的難度要遠遠這些棋牌遊戲，也正是如此，公衆（準确地說是東亞三國的公衆）如此震撼于Alpha Go對李世石的「碾壓」。

如前文所言，人工智能研究者使用棋類遊戲作為智能的衡量标準，以此推進自身研究的發展。Alpha Go 締造者、DeepMind 創始人 Hassabis 也強調，

他要将 Alpha Go 延伸到更廣泛的領域

，由于 DeepMind 采用通用了的AI技術來研發AlphaGo，理論上其關鍵算法的确能夠較快應用與其他領域。

當Alpha Go 一次次讓人類代表李世石面露無奈的表情時，作為人類的我們當然需要為李世石的失敗感到難過，但同樣，但正如

樊麾在接受機器之心專訪

時所言，Alpha Go或許發現了一種新的圍棋的美，是我們想象不到。是以從某種意義上說，

這不是誰的失敗，而是整個人類的勝利

，我們通過機器看到人性的光芒，利用機器推動人類智慧的進步，相比于一個五番旗的圍棋比賽，在另一個更大的棋盤上，人類與機器還在繼續「模仿」與「被模仿」的比賽。

李世石扳回一局！如何借助棋類遊戲擴充人工智能極限？

人工智能與棋牌遊戲的曆史

為什麼是圍棋？

繼續閱讀

開源低帶寬語音編解碼器

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希