天天看點

決策智能:任務與技術概覽

作者:DataFunTalk

導讀 以較為總覽的形式介紹決策智能的概念、主要任務與主要技術。

全文目錄:

1. 決策智能技術概覽

2. 強化學習的基礎概念和思維方式

3. 強化學習的落地現狀與挑戰

分享嘉賓|張偉楠 上海交通大學 副教授

編輯整理|王雨潤 北京大學

出品社群|DataFun

01

決策智能技術概覽

1.智能任務分類

人工智能始終面對兩種智能任務類型:預測型任務和決策型任務。

(1)預測型任務

  • 根據資料預測所需輸出(有監督學習)
  • 生成資料執行個體(無監督學習)

(2)決策型任務

  • 在靜态環境中優化目标(優化問題)
  • 在動态環境中采取行動(強化學習)

在過去十年中,伴随着深度學習技術的發展,人工智能在預測型任務中取得了長足的進步。包括基于有監督學習進行人臉識别,以及基于無監督學習對資料進行聚類、表征學習、資料生成等。由于過去十年深度學習的發展,使得人工智能搜尋、推理、學習、博弈的四類技術中學習技術發展速度突出,預測型任務的解決受到廣泛關注。但人工智能的初期階段,如跳棋程式等,都試圖解決決策型任務,可大緻可分為在靜态環境中優化目标的優化問題與在動态環境中采取行動的控制問題。

兩類任務之間的本質差別在于,預測型任務本質學習的是一類映射函數僅需要考慮信号而不涉及行動;而決策型任務的輸出則可以直接影響環境本身,以至于需要對環境之後的改變負責。

決策智能:任務與技術概覽

2.決策智能的任務和技術分類

決策環境特性可用決策環境的動态性與透明性進行表征,具體如下:

  • 靜态環境:環境沒有轉移狀态,對應單步決策;
  • 動态環境:環境有可轉移狀态,對應多步決策,此環境下無論透明性與否均面對序貫決策任務。
  • 白盒環境:變量和目标之間的關系可以用具體公式表示;
  • 黑盒環境:變量和目标之間的關系無法用具體公式标志。

根據決策環境的動态性和透明性,決策任務可大緻劃分為四個部分,并對應具體的技術方案為:

  • 運籌優化:對應靜态環境與白盒環境,包括(混合整數)線性規劃問題、非線性優化問題等;
  • 黑盒優化:對應靜态環境與黑盒環境,包括神經網絡替代模型優化、貝葉斯優化、超參數搜尋等;
  • 動态規劃:對應動态環境與白盒環境,包括MDP直接求解、樹、圖搜尋等;
  • 強化學習:對應動态環境與黑盒環境,包括政策優化、Bandits問題等。
決策智能:任務與技術概覽

其中,運籌優化問題往往能夠通過模組化方式由數學表達式寫出,是典型白盒環境。以常見的混合整數規劃問題為例,目标是最小化線性目标,并伴随相應的限制。工業場景中以生産排期為例,優化變量為每個時段生産的物品和量,限制為生産物品、生産環境的依賴,目标為完成産量基礎上最小化生産成本。若離散化表達生産環境,則可對應至整數規劃問題。

決策智能:任務與技術概覽

黑盒優化問題中,優化輸出目标往往無法由數學公式直接對應至輸入變量,優化的目标函數未知,甚至評估也不容易,同時需要在一定範圍内尋找最優變量。主要面臨的挑戰包括無顯式解、收斂性等問題。以工業制造為例,一套生産線具有500個可調參數,需要找到合适的參數使得産出零件的壞件率最低,但對于任何一組參數均需開啟生産線一段時間後才能計算壞件率。

決策智能:任務與技術概覽

序貫決策問題中,智能體序貫地進行一步一步決策,并接續看到新的觀測,直到最終任務結束。智能體和環境互動過程中去學習優化目标的過程,優化目标為累計衰減獎勵總和的期望,優化變量為觀測動态環境後所采取的行動政策。以機器狗為例,操作輪足和地形持續互動,完成越過障礙物的任務。絕大多數序貫決策問題,可以用強化學習來解決。

決策智能:任務與技術概覽

02

強化學習的基礎概念和思維方式

1.強化學習定義

強化學習為智能體和環境互動過程中學習來實作目标的計算方法,具有感覺、行動和目标三方面訴求。

決策智能:任務與技術概覽

在強化學習互動過程中,對于每一時間步,智能體能夠獲得對于環境的觀察,例如機器狗能夠獲得力覺和視覺的資訊;能夠執行相應的行動,如機器狗每個關節角度的改變和相應的加速度;能夠獲得相應的獎勵,如果機器狗摔倒則獲得負向獎勵,若正常行走則獲得正向獎勵。基于以上觀察、行動與獎勵三部分内容,智能體完成與環境互動的一次環路,并随着時間步的不斷疊代不斷往後進行。

決策智能:任務與技術概覽

是以,在與動态環境互動中進行強化學習的範式與預測型任務的人工智能學習範式具有本質差別。對于有監督學習和無監督學習的學習範式,是在一個給定的資料分布之下,通過求解期望中的打分函數改變模型參數,使得在給定資料分布下期望值達到最小。決策任務中,通過改變智能體與環境互動過程中的政策,智能體與環境互動過程所産生的資料分布(資料占用度量)會直接發生改變,而獎勵函數本身則不發生改變。

決策智能:任務與技術概覽

2.強化學習系統要素

曆史(History)是之前的時間步中所積累的觀察、行動和獎勵的序列。基于序列智能體可提取環境的狀态,代表智能體在環境中的充分統計量,用于确定接下來會發生的事情(觀察、行動、獎勵)。

決策智能:任務與技術概覽

政策是智能體在特定狀态的動作決策,确定性政策使用函數形式輸入環境狀态輸出具體行動,随機政策則輸入相應的環境狀态輸出行動的分布并采樣出具體的行動。基于具體的狀态和動作,環境給出實作預定好的獎勵函數值,标定了一步範圍内行動的好壞優劣。最終環境将基于目前狀态和智能體選擇的決策轉移至下一個狀态。

3.表格式強化學習

(1)價值-政策的動态規劃求解(白盒動态環境)

在序貫決策問題中,我們希望優化價值标量,用于定義長期以來什麼是“好”的。政策π的價值函數為從某個狀态和動作開始,獲得的累計獎勵期望。價值函數可等同于目前時間步的立即獎勵加上在時間折扣後的環境的轉移狀态與下一個狀态的價值(Bellman等式)。

由于獎勵函數與環境的轉移狀态均為給定值,是以環境為白盒環境,問題本身仍歸于動态規劃問題而非真正意義上的學習問題。學習問題常常僅已知一個具體的資料點,而不包含整個環境分布本身的機率值。基于Bellman疊代等式,可使用政策疊代進行動态規劃問題求解:使用Q函數,改進政策π;基于上式,更新Q函數,經過壓縮算子的不斷疊代可最終收斂于不動點,可取得最優的Q函數和最優政策。

決策智能:任務與技術概覽

(2)SARSA強化學習方法(黑盒動态環境)

黑盒環境的狀态轉移機率以及相應的獎勵函數本身均是未知的,但在任何狀态下仍可以執行相應的動作并直接觀測到獎勵值并轉移到下一個狀态,智能體将繼續執行動作。是以對于目前政策執行的每個(狀态-動作-獎勵-狀态-動作),可類似Bellman疊代式基于采樣版本進行Q函數的更新,對應于強化學習中的SARSA算法。

決策智能:任務與技術概覽

SARSA算法的關鍵在于在目前政策之下得到的采樣資料直接用于更新目前政策,即線上政策時序差分控制(on-policy TD control),用于保證目前資料與目前政策本身是比對的。

決策智能:任務與技術概覽

在Windy Gridworld環境中,SARSA算法以線上強化學習的方式學習出從初始狀态到目标狀态的一條最優軌迹。

決策智能:任務與技術概覽

4.深度強化學習

表格式強化學習具體計算每一個狀态以及每一個動作所對應的Q值,或一個政策在每一個狀态下采取每一個行動具體的機率值。但若環境較為複雜或狀态空間與動作空間較大,表格學習将會變得困難。此類情況下,往往選擇參數化函數以還原價值函數表格或政策表格,使用更新參數的政策以更新相應的價值函數或政策。

決策智能:任務與技術概覽

基于該思路,可使用深度神經網絡形式實作參數化價值函數或政策網絡。于是自2013年12月開始,第一篇深度強化學習論文在NIPS Workshop上發表并取得較大成功。使用深度卷積網絡直接實作Q函數,輸入遊戲中的像素,輸出相應的行動。

決策智能:任務與技術概覽

深度強化學習的關鍵在于實作了端到端的強化學習。之前無論是設計表格或設計參數去實作近似函數,均需要大量人工;端到端強化學習輸入生資料,輸出政策,使得強化學習從一項實驗室學術技術變成可以産生工業GDP價值的落地技術。

決策智能:任務與技術概覽

深度強化學習本身将深度學習和強化學習結合在一起,其結合帶來了大量新的關鍵科學問題的研究。由于價值函數和政策變成了深度神經網絡,是以使得資料采樣和訓練難以穩定地進行,以至于需要新的穩定性計算方式設計,同時也需要平衡CPU(用于收集經驗資料)與GPU(用于訓練神經網絡)之間算力的平衡。這些新的問題促進深度強化學習算法的創新。

決策智能:任務與技術概覽

目前深度強化學習的研究前沿方向主要包括:

  • 基于模拟學習的強化學習:建立環境模拟器
  • 目标策動的階層化強化學習:長程任務的中間目标是橋梁的基石
  • 模仿學習:無獎勵信号下跟随專家做政策學習
  • 多智能體強化學習:分散式、去中心化的人工智能
  • 離線強化學習:訓練過程中智能體不能與環境互動
  • 強化學習大模型:探索以大的序列模組化方式完成序貫決策任務
決策智能:任務與技術概覽

強化學習大模型使用大語言模型架構(如GPT架構)去定義接下來産生的動作,來完成智能體目前的目标。智能體的目标可以以各種方式在序列過程中進行模組化,如在規定步數内獲得特定回報值或行進至地圖内規定位置,并輸出為達到該目标所要執行的動作。于是通過這種方式可以倒裝強化學習,将優化最終目标的範式變成為達到最終目标預測曆史動作的範式,該範式正在達到并超越離線強化學習方法。

決策智能:任務與技術概覽

在多智能強化學習方面,數字大腦研究院、中科院和高校團隊于2021年11月釋出首個多智能體強化大模型MADT,使用一個GPT模型完成多個星際争霸對戰任務,并在新的對戰任務中具有較好的遷移性能。DeepMind在2022年5月釋出Gato決策大模型,使用同一個GPT網絡(11.8億參數)同時完成約600個任務,在75%以上的任務中達到了專家50%以上的性能水準。它采樣每個任務的專家資料,并使用完全有監督學習離線訓練,并使用部分專家軌迹做任務提示學習。

決策智能:任務與技術概覽
決策智能:任務與技術概覽

03

強化學習的落地現狀與挑戰

1.強化學習落地現狀

自2013年第一篇深度強化學習論文發表以來,強化學習在遊戲智能外也擁有如無人駕駛、交通排程、快遞倉庫分揀機器人、體育場景等廣泛的落地場景。強化學習若從虛拟的遊戲場景走向真實的工業場景,依然面臨着包括資料樣本小、噪聲多、離線訓練等諸多挑戰。

決策智能:任務與技術概覽

2.強化學習落地挑戰

  • 人對于AI的更高要求:賦予AI決策權的同時對其算法的安全性、穩定性與高效性提出更高要求,需要高仿真度模拟器和安全強化學習技術
  • 決策場景千變萬化:不同任務的目标、資料、效率要求等皆不同,要求算法團隊對具體的場景任務比較了解
  • 算力的極大需求:強化學習的資料需求與算力需求較預測型深度學習模型大1~2個數量級,一個統一的、高效的、服務強化學習的計算平台很重要
決策智能:任務與技術概覽

今天的分享就到這裡,謝謝大家。

決策智能:任務與技術概覽

▌2023資料智能創新與實踐大會

4大體系,專業解構資料智能

16個主題論壇,覆寫當下熱點與趨勢

70+演講,兼具創新與最佳實踐

1000+專業觀衆,内行人的技術盛會

點選下方連結即可報名參會~

DataFunCon2023(北京站):資料智能創新與實踐大會 �-�百格活動

繼續閱讀