天天看點

alphaGo的前世今生,并不那麼玄乎

       David Silver 是AlphaGo的操刀者,一直從事Go的AI研究。

        http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html   

       從2007年David Silver與S.Gelly 合作寫的《Combining Online and Offline Learningin UCT》,ICML2017 時間大浪淘沙獎(10年沉澱之精華)在UCT基礎上增加了offline learning,提出了在将線上學習與離線棋譜的學習結合起來,RL裡分為決策網絡(Policy network,下一步棋子放到哪個點)、價值網絡(value network,目前選擇到最後是赢的記為1,輸為0,反向傳到到目前決策所得的值,因為都有一定的機率所有目前的值一般是0-1之間的機率值)。在這篇論文中Offline learning提到“MCTS + RAVE + Simple Value Function + Rollouts with custom play ”,主要創新點是将棋譜引入到離線學習得到下一步(尤其是在之前沒有遇到過的情況下)應該下哪一步。

      在後續近10年間一直持續做Go相關的研究優化。

       http://www0.cs.ucl.ac.uk/staff/d.silver/web/Publications.html

       都在研究怎麼充分利用離線知識(人工棋譜知識)。每隔一段時間都有一點進步,從9*9的棋盤到19*19的棋牌。

     《Mastering the Game of Go with Deep NeuralNetworks and Tree Search》

        在2016年發表到nature,成功戰勝世界冠軍。從傳統的RL,到引入深度學習的RL,将棋譜的特征巧妙的作為圖檔資訊,19*19的棋譜就是19*19的像素,輸入到cnn+dnn網絡,政策網絡、值網絡都引入深度學習模型。

         2017年10月又在nature上發表了《Mastering the Game of Go without HumanKnowledge. 》

        返璞歸真,不用離線知識學習了(感覺回到2007年之前了,雖然2017年8月剛因為引入離線學習得到ICML2017的 Test Of Time reward),而直接用增強學習搞定一切,并且将Policy Network、Value Network權值共享。

         這一篇引來朋友圈一大片熱潮,歡呼人工智能時代的真正到來,但是這是在規則确定明确的場景,在很多需要标注的場景還是玩的不太開,需要外部給予回報,而圍棋場景最終回報是确定了。不過從研究角度看出,如果要深耕一個領域真的要有十足的耐心、長久的堅持并且持續創新引領,并且時不時回過頭來review下以前的方向是否在新時代下是否用新的方法是否可以更上一層樓!

繼續閱讀