alphaGo的前世今生，并不那麼玄乎

2023-08-07 16:59:43

David Silver 是AlphaGo的操刀者，一直從事Go的AI研究。

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

從2007年David Silver與S.Gelly 合作寫的《Combining Online and Oﬄine Learningin UCT》，ICML2017 時間大浪淘沙獎（10年沉澱之精華）在UCT基礎上增加了offline learning，提出了在将線上學習與離線棋譜的學習結合起來，RL裡分為決策網絡（Policy network，下一步棋子放到哪個點）、價值網絡(value network，目前選擇到最後是赢的記為1，輸為0，反向傳到到目前決策所得的值，因為都有一定的機率所有目前的值一般是0-1之間的機率值)。在這篇論文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”，主要創新點是将棋譜引入到離線學習得到下一步（尤其是在之前沒有遇到過的情況下）應該下哪一步。

在後續近10年間一直持續做Go相關的研究優化。

http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

都在研究怎麼充分利用離線知識（人工棋譜知識）。每隔一段時間都有一點進步，從9*9的棋盤到19*19的棋牌。

《Mastering the Game of Go with Deep NeuralNetworks and Tree Search》

在2016年發表到nature，成功戰勝世界冠軍。從傳統的RL，到引入深度學習的RL，将棋譜的特征巧妙的作為圖檔資訊，19*19的棋譜就是19*19的像素，輸入到cnn+dnn網絡，政策網絡、值網絡都引入深度學習模型。

2017年10月又在nature上發表了《Mastering the Game of Go without HumanKnowledge. 》

返璞歸真，不用離線知識學習了（感覺回到2007年之前了，雖然2017年8月剛因為引入離線學習得到ICML2017的 Test Of Time reward），而直接用增強學習搞定一切，并且将Policy Network、Value Network權值共享。

這一篇引來朋友圈一大片熱潮，歡呼人工智能時代的真正到來，但是這是在規則确定明确的場景，在很多需要标注的場景還是玩的不太開，需要外部給予回報，而圍棋場景最終回報是确定了。不過從研究角度看出，如果要深耕一個領域真的要有十足的耐心、長久的堅持并且持續創新引領，并且時不時回過頭來review下以前的方向是否在新時代下是否用新的方法是否可以更上一層樓！

alphaGo的前世今生，并不那麼玄乎

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普