如何讓AI符合人類的意圖?
這個問題是将AI系統部署到真實世界、幫助人類解決複雜問題的最大障礙之一。
DeepMind将這個問題定義為“智能體對齊問題”(agent alignment problem),并提出依賴于獎勵模組化,正面解決agent alignment問題的研究方向。

這篇文章基于DeepMind的新論文Scalable agent alignment via reward modeling: a research direction,概述了解決agent alignment問題的研究方向。所提出的方法依賴于獎勵模組化的遞歸應用,以符合使用者意圖的方式解決複雜的現實世界問題。
近年來,強化學習在許多複雜遊戲環境中取得了令人矚目的成績,從Atari遊戲、圍棋、象棋到Dota 2和星際争霸II,AI智能體在越來越複雜的領域迅速超越了人類水準。遊戲是開發和測試機器學習算法的理想平台。它們提出了需要多種認知能力才能完成的具有挑戰性的任務,反映出解決現實世界問題所需的技能。機器學習研究人員可以在雲上并行運作數千個模拟實驗,生成系統學習所需的訓練資料。
至關重要的是,遊戲通常都有一個明确的目标,以及一個近似于實作該目标的進展的分數。這個分數為強化學習智能體提供了有用的獎勵信号,使我們能夠得到關于哪些算法和架構選擇最有效的快速回報。
智能體對齊問題
AI發展的終極目标是讓人類受益,讓我們能夠應對現實世界中日益複雜的挑戰。但現實世界并沒有内置的獎勵機制。這就帶來了挑戰,因為現實世界任務的表現不容易定義。我們需要一種好的方式來提供回報,并使AI能夠可靠地了解我們想要什麼,以幫助我們實作目的。
換句話說,我們想用人類回報的方式訓練AI系統,使AI的行為與我們的意圖一緻。為了達到這個目的,我們将智能體對齊問題(agent alignment problem)定義如下:
如何建立符合使用者意圖的智能體?
對齊問題可以在強化學習架構中建構,不同之處是,智能體可以通過互動協定與使用者互動,而不是接收數字獎勵信号。這個互動協定允許使用者向智能體傳達他們的意圖。協定可以采用多種形式:例如,使用者可以提供示範、偏好、最佳操作或傳達獎勵函數。Agent alignment問題的解決方案之一是根據使用者的意圖行事的政策。
DeepMind的新論文概述了正面解決agent alignment問題的研究方向。基于我們之前對AI安全問題分類的研究,以及對衆多AI安全問題的論述,我們描繪了這些領域的進展如何能夠産生一個解決agent alignment問題的方案。這将為建構能夠更好地了解如何與使用者互動、如何從使用者的回報中學習、以及如何預測使用者偏好的系統打開大門。
通過獎勵模型進行對齊
我們研究方向的要點是基于獎勵模組化(reward modeling):訓練一個獎勵模型,其中包含來自使用者的回報,進而捕捉他們的意圖。與此同時,我們通過強化學習訓練一個政策,使獎勵模型的獎勵最大化。換句話說,我們把學習做什麼(獎勵模型)和學習怎麼做(政策)區分開來。
獎勵模組化的示意圖:根據使用者的回報訓練獎勵模型,以擷取使用者的意圖;這個獎勵模型為經過強化學習訓練的智能體提供獎勵。
例如,在以前的工作中,我們教智能體根據使用者偏好做一個後空翻,根據目标狀态示例将對象排列成特定形狀,以及根據使用者偏好和專家示範玩Atari遊戲。未來,我們希望設計能夠學習适應使用者提供回報的方式(例如使用自然語言)的算法。
擴大獎勵模型的規模
從長遠來看,我們希望将獎勵模型的規模擴大到人類無法直接評估的過于複雜的領域。要做到這一點,我們需要提高使用者評估結果的能力。我們将讨論如何遞歸地應用獎勵模組化:可以使用獎勵建模組化來訓練agent,讓agent幫助使用者進行評估過程。如果評估比行為更容易,就可以從簡單的任務過渡到更加普遍、更加複雜的任務。這可以看作是一個疊代擴增(iterated amplification)的執行個體。
遞歸獎勵模組化的示意圖:使用遞歸獎勵模組化訓練的agent(右邊的小圓圈)幫助使用者評估目前正在訓練的agent(大圓圈)産生的結果。
例如,假設我們想訓練一個agent來設計計算機晶片。為了評估某個提議的晶片設計,我們使用獎勵模組化訓練其他的“helper”智能體,以對晶片的模拟性能進行基準測試、計算散熱、估計晶片的壽命、查找安全漏洞,等等。總的來說,這些helper agents的輸出使使用者能夠通過協助評估所提議的晶片設計來訓練晶片設計agent。雖然helper agent必須解決一系列非常困難的任務,但這些任務總比直接設計一個晶片更容易執行:要設計一個計算機晶片,你必須了解每一項評估任務,但反過來則不然。從這個意義上說,遞歸獎勵模組化可以讓我們“支援”agent來解決越來越難的任務,同時保持與使用者意圖一緻。
研究挑戰
為了對這些複雜的問題進行獎勵模組化,需要解決幾個挑戰性問題。下面列出了其中的五項挑戰,論文中對這些挑戰及其解決辦法進行了更深入的描述。
我們希望擴大獎勵模組化時遇到的挑戰(左)和有前景的解決方法(右)。
那麼就來到了agent alignment的最後一個重要組成部分:在現實世界中部署AI智能體時,我們需要向使用者提供證據,證明我們的智能體确實已經充分對齊了。
本文讨論了五種不同的研究途徑,可以幫助增加對agent的信任:設計選擇、測試、可解釋性、形式驗證和理論保證。
我們的一個雄心勃勃的目标是制作安全證書(safety certificates):可以用來證明負責任的技術開發工作,并讓使用者對依賴訓練好的智能體有信心。
未來研究方向
雖然我們相信遞歸獎勵模組化是訓練對齊智能體的一個非常有前景的方向,但目前還不知道它可以如何擴充(需要更多的研究)。幸運的是,追求agent alignment還有其他一些研究方向:
● 模仿學習
● 短視強化學習(Myopic reinforcement learning)
● 逆強化學習(Inverse reinforcement learning)
● 合作逆強化學習
● 疊代擴增
● Debate
● Agent foundations
本文進一步探讨它們的異同。
正如對計算機視覺系統相對對抗性輸入的魯棒性的積極研究對于當今的ML應用程式是至關重要的一樣,對齊研究對于在複雜的現實世界中部署ML系統也是至關重要的。我們有理由保持樂觀:雖然我們希望在擴大獎勵模型時面對挑戰,但這些挑戰是我們可以取得進展的具體技術研究問題。從這個意義上說,我們的研究方向已經準備就緒,可以對深度強化學習智能體進行實證研究。
原文釋出時間為:2018-11-22
本文作者:Jan Leike
本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。
原文連結:
DeepMind重磅論文:通過獎勵模型,讓AI按照人類意圖行事