天天看點

看Deepmind機器人尬舞,邊玩邊學AI技術

Deepmind通過增強學習讓木偶學習行走、跑跳。

近日,Deepmind公布了智能電機的相關研究成果,展示了機器人學習如何控制和協調身體來解決在複雜環境中的任務。這一研究涉及不同領域,包括計算機動畫和生物力學。

接下來我們帶領大家邊玩邊學。

上一個小視訊,先睹為快

此刻,想必你已經忍俊不禁了吧。視訊中,我們可以直覺感受到木偶的動作是笨拙的。

此處采用的是增強學習,但不同于Deepmind此前開發的Atari或Go,這裡,需要準确描述複雜行為。具體來說,就是獎勵機制的不同,在Atari和Go的開發過程中,設計人員将得分作為獎勵,就可以依照預期來優化系統。但是在連續的控制任務(如運動)中,獎勵信号的選擇就沒有那麼容易,常常會出現獎勵信号的選擇不當,進而導緻優化結果與設計師期望不符。

由此,自然就會想到慎重選擇獎勵信号,以此來實作優化,但是如果謹慎設計獎勵,也就等同于回避了增強學習的核心問題:系統如何直接從有限的獎勵信号中自主學習,讓木偶實作豐富而有效的動作行為。

研究團隊表示,為了讓系統有自我學習的能力,他們選擇直面增強學習中的核心問題。于是團隊以環境本身具有足夠的豐富性和多樣性為研究的主要背景,從兩方面實作學習:

一:預設一系列不同難度級别的環境,引導木偶學習和找到解決困難的方案;

看Deepmind機器人尬舞,邊玩邊學AI技術

二:因為過拟合,獎勵機制和動作細節都具有一定的誤差,進而每一次運動都有些微不同。發現不同方案之間的特殊性能差距,也将幫助系統有效學習。

看Deepmind機器人尬舞,邊玩邊學AI技術

為了使操控的木偶面對不同的地形有效的學習,研究團隊還開發了增強學習算法。

首先,團隊開發了強大的政策梯度算法,如信任區域政策優化(TRPO)和近端政策優化(PPO),其中,他們選擇将每次更新的參數綁定到信任區域以確定算法的穩定性。

其次,對于像廣泛使用的A3C算法以及相關算法,他們将其配置設定運用在許多并行的代理環境和執行個體中。

這樣,面對複雜的環境,通過自主學習,木偶自然就會有豐富而有效的行為表現。

再來看看下面的“群魔亂舞”

視訊中這些小人們是不是已經不忍直視,不過專業的角度來看,技術上已經很棒了。

據了解,建構可程式設計人形木偶的問題可以追溯到幾個世紀以前。在1495年,達芬奇以裝甲騎士的形式建構了一個人形自動機。騎士能夠通過曲柄傳遞的力量揮動,坐起來,打開和關閉其下巴。不像大多數鐘表隻能産生沿着單極循環的運動,機械騎士可以重新程式設計以改變其運動,進而能夠及時改進手臂運動方向或交替運動順序。

現如今,在此系統中,最優控制和增強學習能夠用來設計人形木偶的行為,并且神經網絡能夠存儲動作行為和靈活檢測多種運動模式,将這幾種技術融合,可實作運動控制。但研究團隊表示,依靠純增強學習(RL),會使運動行為過于刻闆,不符合設計期望。

通常,在計算機動畫相關文獻中使用的替代性方案是采取運動捕捉資料,将其加載到控制器中。在視覺上,采取這一方案的方法都産生了讓人滿意的運動表現,然而,其中有些方法産生的狀态序列僅僅是理論上的,實體上并不适用。還有一些方法需要設計大量的組成因素,如成本函數。

而此處,為了從運動捕捉資料中進行仿制學習,研究團隊采用生成對抗模仿學習(GAIL),這是模仿學習中最近的一項突破,簡言之,該方法就是以類似于生成對抗網絡的方式産生模仿政策。與已存在的模仿學習相比,該方法的主要優點是模仿與示範資料之間相似度的衡量不是基于預先設計好的路徑成本。

看Deepmind機器人尬舞,邊玩邊學AI技術

具體操作上,主要就是先訓練低級别控制器,通過使用GAIL的擴充來從運動捕捉資料中生成行為信号,接着将低級别控制器嵌入更大的控制系統中,其中進階别控制器通過RL學習調制低級别控制器來解決新任務。

顯然,通過對抗模仿學習,人偶會有更加靈活的身手。

據悉,該系統的具體實作主要基于一種生成模型的神經網絡架構,它能夠學習不同行為之間的關系。

看Deepmind機器人尬舞,邊玩邊學AI技術

首先,給其一個基本動作,通過訓練,該系統可以自動對最基本動作進行編碼,并且基于基本動作及對抗學習,系統自動微小改變來創新一個新動作。同時,研究團隊還表示他們的系統可以在不同類型的行為之間切換。

實作系統的靈活性和适應性是AI研究的關鍵因素,Deepmind研究團隊直面困難,專注于開發靈活的系統,雖然目前系統模型依然粗糙,但是我們還是很期待後期進一步的優化和改進後的成果。

原文釋出時間:2017-07-13 14:22

本文作者:Lynn

本文來自雲栖社群合作夥伴鎂客網,了解相關資訊可以關注鎂客網。

繼續閱讀