天天看點

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

我就是 AlphaGo!2017 年 1 月 4 日晚 9 時,Master 的神秘面紗終于被揭開了。在對局周睿羊 9 段的第 59 局比賽之後,名為 Master 的賬号在騰訊野狐圍棋平台上主動透露了自己的身份:「我是 AlphaGo 的黃博士(黃士傑)。」随後,在對陣古力 9 段的最後一局結束後,這場由中日韓三國多名旗手對陣人工智能曆時 7 天的跨年大戰宣告結束。

很快,Demis Hassabis 在自己的 Twitter 上發表了一份聲明:

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

樊麾在微網誌上分享了這份聲明并給出了中文版本:

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

網名 Master 的神秘棋手于 12 月 29 日出現在弈城網上圍棋平台(最初名為 Magist)。三天時間對局數量達到 30 盤,全部勝利,對手包括樸廷桓、陳耀烨、芈昱廷、唐韋星等當今世界頂級棋手,其中對樸廷桓 4 比 0,對陳耀烨為 2 比 0。

随着 Master 的連勝,網絡圍棋平台瞬間受到了大量關注,不少人開始猜測 Master 的真實身份。有人詢問了 AlphaGo 開發者黃士傑博士,得到了不置可否的回答。

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

随後,Master 在 2016 年 12 月 31 日宣布将休息一天。著名棋手柯潔在微網誌上表示:「我從三月份開始到現在研究了大半年的棋軟,無數次的理論、實踐,就是想知道計算機究竟強在哪裡。昨晚輾轉反側,不想竟一夜無眠。人類數千年的實戰演練進化,計算機卻告訴我們人類全都是錯的。我覺得,甚至沒有一個人沾到圍棋真理的邊。但是我想說,從現在開始,我們棋手将會結合計算機,邁進全新的領域達到全新的境界。新的風暴即将來襲,我将盡我所有的智慧終極一戰!」

在 1 月 1 日晚 11 時,Master 轉戰騰訊野狐圍棋,與各路高手展開了新的對局。因為名聲鵲起,從李欽誠到古力、柯潔、黨毅飛、江維傑、辜梓豪、樸永訓、柁嘉熹、姜東潤、井山裕太等人紛紛申請與之對戰,但随後紛紛負于這一仍未公開姓名的神秘對手。

到了 1 月 4 日下午,在網絡圍棋中與 Master 對戰過的著名棋手包括柯潔、樸廷桓(南韓冠軍)、井山裕太(日本冠軍)、周俊勳(台灣省第一人)等人。1 月 4 日下午 3 點,中國「棋聖」聶衛平在與 Master 的對戰中失利,這是 Master 的第 54 場勝利。

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

與柯潔的對戰

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

1 月 3 日 Master 戰勝柯潔後,聶衛平表示:「Master 改變了我們傳統的厚薄理念,颠覆了多年的定式,圍棋遠不像我們想象的那麼簡單,還有巨大的空間等着我們人類去挖掘,AlphaGo 也好,Master 也罷,都是『圍棋上帝』派來給人類引路的。而在第二天負于 Master 後,聶衛平表示:

Master 技術全面,從不犯錯,是其最大優勢,人類要打敗它的話,必須在前半盤領先,然後中盤和官子也不出錯,這樣固然很難,但客觀上也促進了人類在圍棋技術上的提高。這盤棋我布局不錯,但中盤時打了一個大勺子,斷送好局,有些可惜。

1 月 4 日晚,在連續對陣申真谞 9 段、周睿羊 9 段、古力 9 段後,AlphaGo 的連勝紀錄擴大到了 60 場,按照事先的計劃,谷歌圍棋程式的非正式比賽測試暫時告一段落。

Master 在快棋賽中多次盤中獲勝(沒到收官階段對手就認輸了,這說明 Master 的優勢很大),展示了人類棋手無法企及的快棋水準。網絡快棋是目前職業選手練習的主要方式之一,因為每一步思考時間很短,和帶獎金的正式比賽相比,快棋賽中對決雙方更加容易出錯,是以這次「更新版」AlphaGo 的實際圍棋水準如何還需要正式規則比賽的進一步檢驗。

值得一提的是,去年 12 月 13 日,多名谷歌高層曾經突訪中國,他們在中國棋院與聶衛平、柯潔等人進行了交流,并達成了合作協定。随後在日本棋院 Journalist Club 的頒獎儀式上,Hassabis 曾表示:「2017 年對 AlphaGo 和圍棋界都将是充滿興奮的一年。」人們沒有意識到,在新的一年還未到來時,人工智能對于這項流傳千年的古老技藝的沖擊已經開始。

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

AlphaGo 的系統

AlphaGo 從高調宣戰開始到 3 月底戰勝李世乭,短短 2 個多月内已經博取了無數的眼球。如今再次出現了一個 Master,它是人?是 AI?還是二者的結合?業内猜疑不斷。

外行看熱鬧,内行看門道。在下棋這件事上我們可能看的是熱鬧(小編着實不懂棋的套路),但下圍棋的人工智能系統我們曾了解過。

一月份的 Nature 封面報道

中,曾詳細地介紹了 AlphaGo 系統當時所采用的技術:

首先 DeepMind 使用了如今火熱的深度學習技術,同時還加上了另一種模拟技術來對潛在的步法進行模組化。深度學習需要對一個大型的神經網絡進行訓練,使其對資料中的模式做出反應。

AlphaGo 的關鍵在于使用的深度神經網絡,而且 DeepMind 在 AlphaGo 中使用了兩種不同的神經網絡:第一種叫做政策網絡(policy network),用來預測下一步;第二種叫做價值網絡(value network),用來預測棋盤上不同的分布會帶來什麼不同的結果。

AlphaGo 使用這兩種網絡的方法是把非常複雜的搜尋樹減少到可操作的規模。是以,它并不是在每一步都要考慮幾百種步數,而隻考慮政策網絡提供的幾十種最有前景的步法,價值網絡的作用是減少搜尋的深度,是以,它的搜尋深度并不是特别深,它并不是一下子搜尋出直達比賽末尾的 300 多步,而是搜尋更少的步數,比如 20 多步,并評估這些位置,而不是一路評估到底,看誰最終能赢。搜尋并不是靠蠻力,而是與某種與想象力很相似的東西。

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅
DeepMind 官方釋出的 2016 年度總結

中寫道,「最激動人心的莫過于 AlphaGo 博弈過程中所呈現出來的創造力,有時,它的棋招甚至挑戰了古老的圍棋智慧。圍棋,這一古往今來最富深謀遠慮的遊戲之一,AlphaGO 可以識别并分享其中洞見。」

就像首位和 AlphaGo 對戰的專業選手

樊麾在接受機器之心采訪

時表示:「AlphaGo 可能開辟出另外一種圍棋的美,是我們想象不到的。」

如果觀看了 AlphaGo 和李世乭的對弈,你或許不會對坐在李世乭對面的這位感到陌生。他就是 AlphaGo 的核心作者之一 Aja Huang(黃士傑),而這次代「Master」執子的也是黃士傑博士。值得注意的是,黃士傑還是 DeepMind 中唯一一位圍棋高手(業餘圍棋 6 段),從他的碩博論文《計算機圍棋打劫的政策》和《應用于計算機圍棋之蒙地卡羅樹搜尋法的新啟發式算法》便可以看出他對圍棋的熱愛。

2011 年畢業于台灣師範大學計算機資訊工程專業博士班的黃世傑在 2012 年便加入了 DeepMind 團隊,也是該團隊的早期核心成員之一。

在校期間,黃士傑的導師是曾研發 Crazy Stone 的 Rémi Coulom,而 Crazy Stone 正式在 AlphaGo 橫空出世前最有名的圍棋軟體之一。

黃士傑的導師此前在接受媒體報道時曾透露,黃士傑讀碩士時就鎖定圍棋為他的研究課題,為了寫程式,黃士傑有時在實驗室一呆就是 16 小時,并将他開發的圍棋程式以其老婆的英文名「Erica」命名。

下面是黃士傑的論文引用情況。憑借發表于 Nature 的論文《Mastering the game of Go with deep neural networks and tree search》和另一篇論文《Move Evaluation in Go Using Deep Convolutional Neural Networks》的高引用量,黃士傑僅憑 4 篇論文就在短短兩年時間内獲得大約 388 到 851 之間的引用。

DeepMind官方确認Master身份:全面回顧AlphaGo的再度出山之旅

©本文由機器之心原創,轉載請聯系本公衆号獲得授權。

繼續閱讀