AlphaGo背後這項核心技術，後來怎麼樣了？

雲栖号資訊：【點選檢視更多行業資訊
】

在這裡您可以找到不同行業的第一手的上雲資訊，還在等什麼，快來！

導讀：本文介紹AlphaGo背後的核心技術——深度強化學習。

01 強化學習

近年來，深度學習（Deep Learning, DL）作為機器學習的一個重要研究領域，得到了長足的發展，為強化學習（Reinforcement Learning, RL）提供了強有力的支撐，使RL能夠解決以前難以處理的問題，例如學習直接從像素玩視訊遊戲。

深度強化學習（Deep Reinforcement Learning, DRL）是DL和RL相結合的産物，有望徹底改變人工智能領域。人工智能領域的一個主要目标是生成完全自主的智能體（agent），這些智能體通過與環境的互相作用來學習最優行為。

從可以感覺和響應其所處環境的機器人到基于軟體的與自然語言和多媒體進行互動的智能體，建立一個能夠有效學習且實時響應的人工智能系統一直都是一項長期挑戰。幸運的是，DRL的出現使我們朝着建立自主系統的目标邁出了更近的一步，因為DRL對自主系統有更高層次的了解。

當然，DRL算法還有許多其他方面的應用，比如機器人控制技術，允許我們直接從現實世界中的錄影機輸入來學習對機器人進行控制和操作的政策。

02 強化學習簡介

在讨論深度神經網絡對RL的貢獻之前，我們先來介紹一下RL的一般領域。

RL的本質是互動學習，即讓智能體與其外界環境進行互動。智能體根據自己每次感覺到的外界環境狀态來選擇相應的動作，以對環境進行響應，然後觀測該動作所造成的結果（或好或壞，結果的評判來自某種特殊的獎勵管控機制），并根據結果來調整自身動作選擇機制，最終讓智能體可以對外界環境達到最優的響應，進而獲得最好的結果（智能體針對外界環境采取一系列動作後獲得的最大獎賞值，也稱為累積獎賞值、預期回報）。

是以，RL的目标是使智能體在與環境的互動過程中獲得最大的累積獎賞值，進而學習到對自身動作的最優控制方法。這種試錯學習的方法源于行為主義心理學，是RL的主要基礎之一。另一個關鍵基礎是最優控制，它提供了支撐該領域的數學形式，特别是DP。

為了便于對RL模型結構的了解，我們首先對RL模型中最關鍵的三個部分進行描述。

1. 狀态（state）

如圖1.2所示，狀态其實就是智能體所處的外界環境資訊，該圖中描述的狀态就是一個石闆鋪成的具有間隔的橋面。而環境狀态的具體表現形式可以有很多種，例如多元數組、圖像和視訊等。

外界環境的狀态需要能夠準确地描述外界環境，盡可能将有效資訊包括在内，通常越充足的資訊越有利于算法的學習。狀态要着重展現出外界環境的特征。

2. 動作（action）或行動

如圖1.3所示，動作就是智能體（多關節木頭人）在感覺到所處的外界環境狀态後所要采取的行為，如跳躍、奔跑、轉彎等，是對外界環境的一種回報響應。當然，動作的表現形式既可以是離散的，也可以是連續的。

3. 獎勵（reward）

智能體感覺到外界環境并采取動作後所獲得的獎賞值。獎賞值來源于根據實際場景定義的某種獎勵機制，包括正向獎勵和負向獎勵。正向獎勵會激勵智能體趨向于學習該動作，負向獎勵與之相反。

在圖1.3中，當智能體從一塊石闆成功跨過障礙到達下一塊石闆上時，應該給予其相應的正向獎勵，比如得分加1。當智能體未能成功跨過障礙（從石闆上掉落）到達下一塊石闆時，應該給予其懲罰（負向獎勵），比如得分減1。

在RL環境中，由機器學習算法控制的自主智能體在時間步t從其環境觀察狀态st。智能體通過在狀态st中執行動作a來對環境進行響應。當智能體執行完動作時，環境和智能體将根據目前的狀态和所選的動作轉換到新的狀态st+1。

狀态是對環境的充分統計，包括智能體選取最優動作的所有必要資訊，也可以包括智能體自身的一些部分（例如制動器和傳感器的位置）。

最優的動作順序由環境提供的獎勵決定。每次環境轉換到新狀态時，它還會向智能體提供标量獎勵rt+1作為回報。智能體的目标是學習一種政策（控制政策）π: S→A，以使得預期回報（累積折扣獎勵）最大化，其中S為外界環境狀态的集合S={s1, s2, ... ,st, st+1, ...}，A為動作的集合A={a1, a2, ... ,ak}。

給定狀态，智能體根據政策傳回要執行的動作，最優政策是最大化環境預期回報的任何政策。在這方面，RL旨在解決與最優控制相同的問題。

然而，與最優控制不同，RL中的挑戰是智能體需要通過試錯學習的方法來了解在環境中采取某種動作後所産生的結果，是以，智能體無法獲得狀态轉換的動态模型。智能體與環境的每次互動都會産生相應的資訊，然後利用這些資訊來更新其自身的知識。這種感覺–動作–學習循環如圖1.4所示。

通過智能體與環境進行互動來感覺環境、依靠政策選擇動作，進而獲得最大累積獎賞值。在時間t，智能體從環境感覺狀态st，然後使用其政策選擇動作at。一旦執行了動作，環境就會轉換到下一個狀态，并提供下一個狀态st+1和獎勵rt+1作為新的回報。

智能體以序列(st, at, st+1, rt+1)的形式使用狀态轉換的知識來學習和改進其政策。如果RL系統中的某種行為能夠獲得正的獎勵，那麼系統便會加強産生該動作的趨勢，稱之為正回報；反之，系統便會減弱産生該動作的趨勢，稱之為負回報。

在深度神經網絡融入RL之前，雖然RL在過去取得了一定的進展，但是之前的RL方法缺乏可擴充性，并且在本質上僅限于次元相當低的問題。

存在這些限制的主要原因是之前的RL算法與其他算法具有相同的複雜性，比如，存儲器複雜性、計算複雜性，以及在機器學習算法情況下的樣本複雜性。是以，之前的RL算法隻是适用于比較少的領域，例如，過程控制、排程管理和機器人控制等，并沒有得到廣泛的應用。

幸運的是，随着DL的興起，深度神經網絡為我們克服這些問題提供了新的工具。深度神經網絡具有強大的函數逼近和表示學習特性，使我們解決高維、複雜場景下的RL問題成為可能。

03 深度強化學習簡介

近年來，DL作為一大熱點研究方向對機器學習的許多領域都産生了重大影響，大大提高了對象檢測、語音識别和語言翻譯等任務的技術水準。

DL最重要的一個特性是深度神經網絡可以自動找到高維資料（例如圖像、文本和音頻）的低維表示（特征）。通過将歸納偏差制作成神經網絡架構，特别是階層化表示，機器學習從業者在解決次元災難方面取得了有效進展。DL方法擅長對事物的感覺和表達，RL方法擅長學習解決問題的政策。

為了更好地發揮DL和RL的優勢，谷歌人工智能研究團隊DeepMind創造性地将具有強大感覺力的DL方法和具有優秀決策力的RL方法相結合，在RL中使用DL算法定義了DRL領域。深度神經網絡的引入讓我們能夠以更加具有創新性的方式來實作對自主智能體的開發。

DRL是DL領域中迅猛發展起來的一個分支，目的是解決計算機從感覺到決策控制的問題，進而實作通用人工智能。以Google DeepMind為首，基于DRL的算法已經在視訊、遊戲、圍棋、機器人等領域取得了突破性進展。

2015年，Google DeepMind在《自然》雜志上發表的“Human-level control through deep reinforcement learning”論文，使得DRL受到了廣泛的關注。

2016年，DeepMind推出的AlphaGo圍棋系統使用蒙特卡羅樹搜尋與DRL相結合的方法讓計算機的圍棋水準達到甚至超過了頂尖職業棋手，引起了世界性的轟動。借此案例，我們來簡單了解一下蒙特卡羅樹搜尋和DRL的相關過程。如圖1.5所示，蒙特卡羅樹搜尋的每個循環包括以下4個步驟。

選擇：從根節點開始，選擇連續的子節點向下至葉子節點。後面給出了一種選擇子節點的方法，讓遊戲樹向最優的方向擴充，這是蒙特卡羅樹搜尋的精華所在。

擴充：除非任意一方的輸赢使得遊戲在葉子節點結束，否則建立一個或多個子節點并選取其中一個子節點。

仿真：從選取的子節點開始，用随機政策進行遊戲，又稱為playout或者rollout。

反向傳播（backpropagation）：使用随機遊戲的結果，更新從選擇的子節點到根節點的路徑上的節點資訊。

對于DRL來說，目前的算法都可以包含在actor-critic架構下。actor-critic屬于TD學習方法，其用獨立的記憶體結構來明确地表示獨立于值函數的政策。

政策結構被稱為actor，因為它用于選擇動作；而估計值函數被稱為critic，因為它評價actor所做的動作。對于actor-critic架構，我們會在後面章節詳細講解，現在我們重點探讨DRL，如圖1.6所示。

把DRL的算法視為智能體的大腦，那麼這個大腦包含兩個部分：actor行動子產品和critic評判子產品。當然，這兩個子產品都是由深度神經網絡構成的，也正是DRL中“深度”一詞的由來。其中actor行動子產品是大腦的動作執行機構，輸入外部的環境狀态s，然後輸出動作a。

而critic評判子產品則可被認為是大腦的價值觀，根據曆史資訊及回饋r進行自我調整，然後對整個actor行動子產品進行相關的更新指導。這種基于actor-critic架構的方法非常類似于人類自身的行為方式。

在actor-critic架構下，Google DeepMind相繼提出了DQN、A3C和UNREAL等DRL算法，取得了非常不錯的效果，大大推動了DRL的發展和應用。

2017年DeepMind又推出了更強大的圍棋系統AlphaGo Zero，通過自我對弈，AlphaGo Zero不再受限于人類認知，在三天内以100比0的成績戰勝了AlphaGo Lee，花了21天達到AlphaGo Master的水準，用40天超越了所有的舊版本，與之前版本相比，其棋法更像人類。

如圖1.7～圖1.9所示，AlphaGo Zero在使用DRL算法學習到3小時的時候，就能夠像人類圍棋新手一樣，不注重考慮長期戰略，而隻專注于盡可能多地吃掉對手的棋子。

然後，當其繼續學習到19小時的時候，AlphaGo Zero就已經領悟到一些進階圍棋政策的基礎性知識，例如，生死、每一步的影響和棋盤布局等。最終當使用DRL算法學習70小時的時候，AlphaGo Zero的棋藝已經超過了人類頂級水準。

DRL算法由于能夠基于深度神經網絡實作從感覺到決策控制的端到端自學習，是以具有非常廣闊的應用前景，比如在機器人控制、自然語言處理和計算機視覺等領域都取得了一定的成功，它的發展也将進一步推動人工智能的革命。

其中，圖1.10a是DRL技術在電子遊戲方面的應用，其利用DRL技術學習控制政策為遊戲主體提供動作，在某些遊戲方面其能力已經超過了人類頂級水準。

圖1.10b是機器人足球比賽，利用機器人觀察到的周邊環境，通過DRL模型給出具體的動作指令，控制足球機器人之間的競争和協作。
圖1.10c是無人車領域，根據汽車傳感器獲得的環境資訊，利用DRL技術對汽車的行為進行控制，比如加速、刹車和轉向等。
圖1.10d是無人機或無人機群，DRL控制模型可以控制每個無人機對環境的自身行為響應，也可以為無人機群的協作任務提供自主要制政策。

如今，DRL算法得到了更深層次的發展，可以分為基于值函數（value-based）的DRL、基于政策（policy-based）的DRL、基于模型（model-based）的DRL和基于分層（hierarchical-based）的DRL等。

關于作者：劉馳，北京理工大學計算機學院副院長、教授、博士生導師，英國工程技術學會會士（IET Fellow），IEEE進階會員（IEEE Senior Member），英國計算機學會會士（Fellow of British Computer Society）和英國皇家藝術學會會士（Fellow of Royal Society of Arts）。

【雲栖号線上課堂】每天都有産品技術專家分享！

課程位址：
https://yqh.aliyun.com/zhibo
立即加入社群，與專家面對面，及時了解課程最新動态！

【雲栖号線上課堂社群】
https://c.tb.cn/F3.Z8gvnK

原文釋出時間：2020-05-12

本文作者：劉馳王占健戴子彭等

本文來自：“

大資料DT 微信公衆号

”，了解相關資訊可以關注“

大資料DT

”

AlphaGo背後這項核心技術，後來怎麼樣了？

繼續閱讀

9.spark Core 進階2--Cashe

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

淺談企業活動中進行資料分析的重要性

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希