環境也能強化學習，智能體要找不着北了，UCL汪軍團隊提出環境設計的新方法

雷鋒網 ai 科技評論按：提到“強化學習”，大家都知道這是一種讓智能體尋找優化政策、進而與環境互動獲得獎勵的半監督學習方法。但是在汪軍教授看來，強化學習的應用領域不止如此。

中提到了一類他們團隊最近正在研究的環境設計問題，比如宜家希望自己店鋪空間設計優化，優化目标可以是環境中不同位置的人流量平均，這樣各個地方擺放的商品都可以兼顧到；在快遞分揀的場景裡，每一個洞對應一個不同的目的地，分揀機器人需要把快遞投入對應的洞裡，那麼就希望分揀機器人的速度盡量快，這既包括行駛的總路徑要盡量短，也包括路徑之間的交叉要盡量少；共享單車給城市管理帶來不少問題，也需要與實時需求對應，合理定價配置設定資源。

能夠達到期望的環境是需要設計的，但是很難分析性地用标準設計方法處理這類複雜的對象與環境互動問題，對整個解空間進行窮舉演算的計算成本又太高。

汪軍教授在ucl的研究團隊，除了教授本人以外還有正在通路ucl的北大博士生張海峰和上海交通大學張偉楠帶的團隊。他們發現，這類環境設計任務與一般強化學習之間具有對稱性，并打算加以利用：

一般強化學習：智能體與環境互動，環境是相對固定的，智能體學習一個優化政策，最大化智能體的目标函數；

環境設計任務：智能體與環境互動，智能體是相對固定的，環境學習一個優化其環境參數的政策，最大化環境的目标函數；

那麼，真的可以用強化學習的方法設計環境嗎？假設答案是肯定的，那麼更進一步地，一般強化學習任務中的智能體可以根據不同環境的特點學到不同的優化政策，那麼環境設計任務中，我們是否可以猜想環境也能夠根據不同智能體的特點，學會不同的優化政策呢？

汪軍老師團隊就在「learning to design games: strategic enviroments in deep reinforcement learning」（學習設計遊戲：深度強化學習設計政策性環境）這篇論文中給這兩個問題做出了解答。

論文中根據馬爾可夫決策過程（mdp）和智能體的政策函數建構學習範式。

馬爾可夫決策過程是強化學習研究中的常用概念，

（狀态空間 s，動作空間 a，狀态轉換函數 p，回報函數 r，随着時間推移的折扣率 γ）。而智能體對狀态空間中的狀态 s 做出動作 a，形成自己的政策

。強化學習的目标就是找到讓智能體獲得回報最大的

。

在标準強化學習用法中，馬爾可夫決策過程 m 是固定的，隻有智能體能夠更新自己的政策。為了給模型加上訓練環境的能力，論文中首先把狀态轉換函數 p 參數化為 pθ，然後給 m 設定一個目标

，進而把過程函數改寫為：

（方程一，這個方程中允許過程 m 和智能體同時達成自己的目标）

為了進行具體研究，論文中選取了這樣一種特定情況進行闡述：環境是對抗性的，環境的目标是讓智能體獲得的回報最少。進而，要研究的目标函數為：

（方程二，環境的目标為讓智能體的回報最少）

考慮到許多情況下如上方程二不是解析性的，是以論文中提出了一種轉換機率梯度的方法進行優化。

首先假設環境（決策過程）和智能體的參數都是疊代更新的。每一輪疊代中，環境沿梯度方向進行更新，然後智能體根據更新後的環境，更新自己的參數尋找優化政策。

為了找到 θ 的梯度，論文中通過設計一組馬爾可夫決策政策對的方式，推導出了一組梯度計算方程，進而可以計算梯度進行這種疊代更新。

圖示1：把該方法用于對抗性的迷宮生成的示意圖。智能體嘗試找到從入口（綠色方塊）到出口（紅色方塊）的最短路徑，但是迷宮要讓最短路徑盡可能地長。沿着

θ 更新的方向，迷宮變得複雜；沿着 φ 更新的方向，智能體找到的路徑變得更短。其中回報定義為穿越迷宮所需步數的負數。

在推導梯度方程的過程中，作者們發現這個方程也有不适用的情況：1，受到環境的天然限制，有時pθ不是可微的，導緻基于政策的方法無法使用；2，轉換機率模型需要學到一個機率分布，導緻基于數值的方法無法使用。

為了解決不适用的問題，作者們提出了一種生成式範式作為梯度方法的替代方法。

如圖，環境生成器首先生成一組參數 θ1~θn，進而形成一組不同的環境。在每一個環境中都單獨訓練一個智能體獲得最優政策，然後在它們各自的環境中觀察回報g1~gn，作為生成器更新下一輪參數的參照。用這樣的方法就可以進行環境的疊代更新。

論文中用迷宮環境對方法進行了測試，需要智能體以最少的步數從迷宮的左上角走到迷宮的右下角，環境的目标是讓智能體能找到的最短路徑的步數盡可能多。為了避免生成的牆壁一開始就把智能體堵起來，作者們讓環境生成器逐漸地增加擋牆，并且放棄會困住智能體的方案。

可微環境

由于正常迷宮的牆壁隻有 0 （沒有牆壁）或者 1 （有牆壁）兩種狀态，導緻這樣的迷宮是不可微的。論文中就設計了一種具有機率性牆壁的迷宮，其中的牆壁能夠以一定的機率擋住智能體，這樣就成為了一個可微的環境。

實驗中使用了opt（optimal，最優）和dqn（deep q-network learning）兩種智能體，其中opt智能體是不會學習的，dqn智能體則能夠利用深度神經網路把整個地圖作為輸入，從随機政策開始學習輸出向四個方向的動作。

如圖中所示，顔色越深的格子表示此處牆壁擋住智能體的可能性越高。可以看到，兩個環境都學到了最有效的阻擋位置是在出口附近，同時，由于兩個智能體的特性不同（dqn智能體對環境的探索更多），是以與dqn智能體互動的環境更快地找到了近似最優的政策，但是從近似最優收斂到最優卻花了很久。

不可微環境

在不可微的正常牆壁測試環境中，論文中還多考慮了一類情況：假設智能體尋找最優路線的能力有限，環境會如何應對？

是以除了剛才的opt和dqn兩種智能體外，現在又加入了dfs（深度搜尋優先，“撞到南牆再拐彎”）和rhs（右側搜尋優先，保證右側是牆壁）兩種智能體。

如圖是環境生成的不同尺寸的迷宮，可以看到，環境為不同的智能體生成的迷宮是不一樣的，為opt（最優路徑）智能體生成了狹長無分叉的路徑；為rhs（右手優先）智能體生成的迷宮就有很多小的分叉，增大了側牆的長度；dfs（深度優先）智能體幾乎把每個格子都走了兩遍；為使用随機政策的dqn智能體生成的迷宮則有一些死胡同。

下面幾張動圖展示了 8x8 的迷宮在智能體的互動中疊代的、逐漸形成以上特征的過程。

迷宮

智能體

opt

dfs

rhs

dqn

這種情況就表明了環境生成器可以根據智能體的弱點，針對性地生成環境。

論文中還有一張學習曲線的分析圖，非常清晰地展現了學習過程的對抗性。

對于具有固定政策的opt、dfs、rhs三種智能體，随着訓練進行，生成器可以在一開始就快速學到讓步數變多的政策，然後逐漸進行收斂。而dqn智能體則能夠随着環境變化不停地更新自己的政策：從學習曲線的不斷大幅波動中可以明顯看到，有時候智能體的學習速度比環境學習速度快，可以造成所需步數的大幅度下降。

這樣，我們在這篇文章開頭提的兩個問題，“能否讓環境強化學習”和“環境能否根據不同智能體的特點學到不同的政策”兩個問題就都得到了肯定的答複。論文中也表示會進一步研究如何運用這種方法設計更多環境。

<a href="https://www.leiphone.com/news/201704/ot1zlnrykxrmjmvl.html">專訪阿裡多智體協作網絡bicnet作者ucl汪軍教授：多智體研究會不會締造下一個alphago奇迹？</a>

環境也能強化學習，智能體要找不着北了，UCL汪軍團隊提出環境設計的新方法

繼續閱讀

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

算法專家解讀 | 開放搜尋教育搜題能力和實踐

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

今天來聊一聊深度學習智能系統的不足

ChatGPT打破了圖靈測試——評估人工智能新方法的競賽正在進行

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用