「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

https://mp.weixin.qq.com/s/KBddskHUAzQ8dm0Onu13ZA

演講課件位址：

http://www.deeplearningindaba.com/uploads/1/0/2/6/102657286/principles_of_deep_rl.pdf

原則一：評估方法驅動研究進展

David Silver 指出，客觀、量化的評估方法是強化學習進展的重要驅動力：

評估名額的選擇決定了研究進展的方向；
這可以說是強化學習項目中最重要的一個決定。

David Silver 介紹了兩種評估方法：

排行榜驅動的研究

確定評估名額緊密對應最終目标；
避免主觀評估（如人類評估）。

假設驅動的研究

形成一個假設：Double-Q 學習優于 Q 學習，因為前者減少了向上偏誤（upward bias）；
在寬泛的條件下驗證該假設；
對比同類方法，而不是隻與目前最優方法進行對比；
尋求了解，而不是排行榜表現。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則二：可擴充性是成功的關鍵

David Silver 認為可擴充性是強化學習研究成功的關鍵。

算法的可擴充性指與資源相關的算法的性能變化；
資源包括計算量、記憶體或資料；
算法的可擴充性最終決定算法成功與否；
可擴充性比研究的起點更加重要；
優秀的算法在給定有限資源的條件下是最優的。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則三：通用性（Generality）支援算法的長遠有效性

算法的通用性指它在不同強化學習環境中的性能。研究者在訓練時要避免在目前任務上的過拟合，并尋求可以泛化至未來未知環境的算法。

我們無法預測未來，但是未來任務的複雜度可能至少和目前任務持平；在目前任務上遇到的困難在未來則很有可能增加。

是以，要想使算法可以泛化至未來的不同強化學習環境，研究者必須在多樣化且真實的強化學習環境集合上測試算法。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則四：信任智能體的經驗

David Silver 指出經驗（觀察、動作和獎勵）是強化學習的資料，公式可以寫作：

h_t=o_1,r_1,a_2,o_2,r_2,...,a_t,o_t,r_t

經驗流随智能體在環境中學習時間的延長而累積。

他告誡我們，要把智能體的經驗作為知識的唯一來源。人們在智能體學習遇到問題時傾向于添加人類的專業知識（人類資料、特征、啟發式方法、限制、抽象、域操控）。

他認為，完全從經驗中學習看起來似乎不可能。也就是說，強化學習的核心問題非常棘手。但這是 AI 的核心問題，也值得我們付出努力。從長遠來看，從經驗中學習一直是正确的選擇。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則五：狀态是主觀的

David Silver 指出：

智能體應該從它們的經驗中建構屬于自己的狀态，即：s_t=f(h_t)
智能體狀态是前一個狀态和新觀察的函數：s_t=f(s_t-1,a_t-1,o_t,r_t)

如下圖所示：

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

它是循環神經網絡的隐藏狀态。
永遠不要根據環境的「真實」狀态來定義狀态（智能體應該是一個部分可觀察馬爾可夫鍊模型）。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則六：控制資料流

智能體存在于豐富的感覺運動（sensorimotor）資料流中：

觀測結果的資料流輸入到智能體中；
智能體輸出動作流。

智能體的動作會影響資料流：

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

特征控制 => 資料流控制
資料流控制 => 控制未來
控制未來 => 可以最大化任意獎勵

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則七：用價值函數對環境模組化

David Silver 首先給出了使用價值函數的三個原因：

高效地對未來進行總結/緩存；
将規劃過程簡化為固定時間的查找，而不是進行指數時間量級的預測；
獨立于時間步跨度進行計算和學習。

他指出，學習多個價值函數可以高效地模組化環境的多個方面（控制狀态流），包括随後的狀态變量；還能在多個時間尺度上學習。他還提醒我們避免在過于簡化的時間步上模組化環境。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則八：規劃：從想象的經驗中學習

David Silver 提出了一種有效的規劃方法，并将其分為兩步。首先想象下一步會發生什麼，從模型中采樣狀态的軌迹；然後利用我們在真實經驗中用過的 RL 算法從想象的經驗中學習。他提醒我們從現在開始關注價值函數逼近。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則九：使用函數近似器

David Silver 認為，可微網絡架構是一種強大的工具，可以豐富狀态表示，同時使可微記憶、可微規劃以及分層控制更加便利。他提出将算法複雜度引入網絡架構，以減少算法複雜度（指參數的更新方式），增加架構的表達性（指參數的作用）。

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

原則十：學會學習

AI 史是一個進步史：

第一代：舊式的 AI

手動預測：此時的人工智能隻能執行手動預測
什麼也學不會

第二代：淺層學習

手動建構特征：研究人員需要耗費大量時間、精力手動建構特征
學習預測

第三代：深度學習

手動建構的算法（優化器、目标、架構……）
端到端學習特征和預測

第四代：元學習

無需手工
端到端學習算法和特征以及預測

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

「AlphaGo 之父」David Silver最新演講，傳授強化學習的十大原則

繼續閱讀

MBA提前面試純幹貨分享

MBA值得學麼

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普