天天看點

比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!

原标題:比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!

比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!

來源:本文作者PENG Bo(http://t.cn/RY3MKSS),本文首發于作者的知乎專欄《技術備忘錄》

讀過AlphaGo Zero論文的同學,可能都驚訝于它的方法的簡單。另一方面,深度神經網絡,是否能适用于國際象棋這樣的與圍棋存在諸多差異的棋類?MCTS(蒙特卡洛樹搜尋)能比得上alpha-beta搜尋嗎?許多研究者都曾對此表示懷疑。

但今天AlphaZero來了(https://arxiv.org/pdf/1712.01815.pdf),它破除了一切懷疑,通過使用與AlphaGo Zero一模一樣的方法(同樣是MCTS+深度網絡,實際還做了一些簡化),它從零開始訓練:

4小時就打敗了國際象棋的最強程式Stockfish!

2小時就打敗了日本将棋的最強程式Elmo!

8小時就打敗了與李世石對戰的AlphaGo v18!

在訓練後,它面對Stockfish取得100盤不敗的恐怖戰績,而且比之前的AlphaGo Zero也更為強大(根據論文後面的表格,訓練34小時的AlphaZero勝過訓練72小時的AlphaGo Zero)。

比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!

這令人震驚,因為此前大家都認為Stockfish已趨于完美,它的代碼中有無數人類精心構造的算法技巧。

然而現在Stockfish就像一位國術大師,碰上了用槍的AlphaZero,被一槍斃命。

在reddit的國象版面的讨論中(Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm • r/chess)(http://t.cn/RY3x1kK),大家紛紛表示AlphaZero已經不是機器的棋了,是神仙棋,非常優美,富有政策性,更能深刻地謀劃(maneuver),完全是在調戲Stockfish。

喜歡國象的同學注意了:AlphaZero不喜歡西西裡防禦。

比AlphaGo Zero更強的AlphaZero來了!8小時解決一切棋類!

訓練過程極其簡單粗暴。超參數,網絡架構都不需要調整。無腦上算力,就能解決一切問題。

Stockfish和Elmo,每秒種需要搜尋高達幾千萬個局面。

AlphaZero每秒種僅需搜尋幾萬個局面,就将他們碾壓。深度網絡真是狂拽炫酷。

當然,訓練AlphaZero所需的計算資源也是海量的。這次Deepmind直接說了,需要5000個TPU v1作為生成自對弈棋譜。

不過,随着硬體的發展,這樣的計算資源會越來越普及。未來的AI會有多強大,确實值得思考。

個人一直認為MCTS+深度網絡是非常強的組合,因為MCTS可為深度網絡補充邏輯性。我預測,這個組合未來會在更多場合顯示威力,例如有可能真正實作自動寫代碼,自動數學證明。

為什麼說程式設計和數學,因為這兩個領域和下棋一樣,都有明确的規則和目标,有可模拟的環境。

(在此之前,深度學習的調參黨和架構黨估計會先被幹掉...... 目前的很多灌水論文,電腦以後自己都可以寫出來)

也許在5到20年内,我們會看到《Mastering Programming and Mathematics by General Reinforcement Learning》。然後許多人都要自謀出路了......

未來智能實驗室緻力于研究網際網路與人工智能未來發展趨勢,觀察評估人工智能發展水準,由網際網路進化論作者,計算機博士劉鋒與中國科學院虛拟經濟與資料科學研究中心石勇、劉穎教授建立。

未來智能實驗室的主要工作包括:建立AI智能系統智商評測體系,開展世界人工智能智商評測;開展網際網路(城市)雲腦研究計劃,建構網際網路(城市)雲腦技術和企業圖譜,為提升企業,行業與城市的智能水準服務。