天天看點

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

作者:DeepTech深科技

擁有多模态能力的具身智能體,是實作通用人工智能的最重要組成部分,人們希望它能夠落地,幫助完成日常生活中的任務,例如,常見的家務勞動、自動駕駛和機器人操作等。

目前,領域内還沒有一種公認的技術方案,能夠有效地訓練多模态具身智能體。

在大語言模型中存在著名的 Scaling Laws 理論,簡單來了解,模型越大,資料越多,最終得到的性能也會越好。但是,在訓練具身智能體任務中,很難複刻大語言模型的成功。

主要原因有:

第一,與訓練大語言模型使用的的海量語料不同,具身智能相關的資料十分單一和昂貴(數百萬元級别);第二,缺乏像監督學習那樣有效的訓練方法。

基于此,南方科技大學與美國馬裡蘭大學帕克分校、澳洲悉尼科技大學、京東探索研究院等團隊合作,針對多模态具身智能體的訓練與環境變化之間存在不對齊(misalignment)的問題,提出一種新型具身智能體訓練架構。

通過大語言模型在模仿學習中為智能體提供經驗回報和指導,顯著提升了家務機器人任務完成的成功率。

以往的研究中,人們通常認為在訓練具身智能體時,隻要離線資料集做得足夠大,它的性能就會變得更好。

該研究為領域提供了一個全新的視角:即便資料集做得足夠大,但未來世界的變化是無窮多的,也很難窮舉和泛化出所有的可能性。是以,需要實時收集環境的回報資料,再不斷地互動學習。

近日,相關論文以《由平行文本世界中的大語言模型訓練的多模态智能體》(Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld)為題發表在預印本網站 arXiv[1],并且已被 CVPR 2024 會議接收。

南方科技大學博士生楊一君為第一作者,南方科技大學講席教授史玉回和京東探索研究院沈力博士(現中山大學副教授)擔任共同通訊作者。

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

圖丨相關論文(來源:arXiv)

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

關鍵問題:智能體與環境動态不對齊

研究人員希望從視覺輸入狀态,來訓練跟随語言指令的具身智能體。但是,在現有的架構下,這樣的具身智能體往往是從離線、固定的資料集中進行訓練和學習,這會導緻幻覺、分布偏移、稀疏獎勵等一系列問題。

具體來說:

第一,幻覺,也稱與人類目标不對齊。

智能體在固定、離線的資料集訓練的條件下,它隻能反映出某一個時間節點之前的世界發生的事情。

但世界是動态發生變化的,如果智能體遇到此前資料集中從未出現過的場景或情況,它會執行一些在人看來不合常理的操作或動作,也就是人們常說的“幻覺現象”,具體表現為:智能體執行了錯誤、不合理、以及危險的行為。

楊一君指出,“想徹底解決智能體的幻覺的問題,最直接的方式是,讓智能體不斷地與環境進行互動,實時收集環境的回報資料,再不斷地互動學習,如此一直循環下去。”

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

(來源:南方科技大學)

第二,分布偏移,也稱與環境動态不對齊。

分布偏移問題與幻覺類似,它指的是原來學到的資料分布與未來的資料分布不同。随着時間的推移,在做決策時,資料分布也在不斷地變化,是以會産生偏移,進而導緻在原來資料集上充分訓練過智能體在做決策時,出現一些異常的動作或模型的輸出。

第三,稀疏獎勵。實際上,用一個類似強化學習的方式,通過與環境的互動來訓練智能體,可以得到的環境回報非常稀疏。

楊一君解釋說道:“一項任務的成功完成,需要多步決策累加在一起。但是,智能體可能在中間的某些步驟或在所有步驟都得不到任何有價值的回報,隻有最終任務完成後,才得到成功的回報。”

是以,如果任務的中間步驟過長,智能體沒有被一步步地回報指導,可能會導緻其很難實作最終的目标。

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

用大語言模型跨模态訓練具身智能體

在該研究中,馬裡蘭大學帕克分校助理教授周天翼總結出上述智能體與環境動态不對齊的關鍵問題。

之後,經過團隊讨論,楊一君提出,通過不斷地與環境進行互動,再利用大語言模型根據環境回報提供一步步指導,來更高效地訓練智能體的政策。

“實際上,我們是領域内比較早意識到智能體與環境動态不對齊問題的團隊,這一點在 CVPR 2024 會議審稿時也得到了審稿人的肯定。”他說。

研究人員提出一種跨模态模仿學習的算法架構,以得到關于環境的實時回報。需要了解的是,在模仿學習中,有兩個關鍵的角色,分别為:教師/專家(Teacher)和學生/具身智能體(Student)。

在得到環境的狀态資訊後,先把其輸入給大語言模型“教師”,然後“教師”在總結回報後輸出一個更容易學習的目标,讓“學生”進行模仿。

楊一君表示:“教師的輸出解決了之前存在的稀疏獎勵的問題,這樣,每一步環境回報,教師都可以為學生提供指導,解決了需要在所有任務完成後才能知道是否成功的問題。”

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

(來源:arXiv)

在模仿學習方面,傳統的方法是用人的标注進行訓練和學習的指導。例如,在每一步提供幾個選項,然後由人選擇在執行上最有助于完成最終目标的選項。

需要了解的是,從人的回報中進行學習的方式,不僅費時、費力,還要求進行回報的人需要具備專業的學科知識,特别是與機器人相關的問題,這會提高标注的成本。

目前,大語言模型已經能夠完成很多種類的任務,甚至包括一些決策的任務。是以,該課題組創新性地提出,用大語言模型代替人來提供模仿學習過程中的回報信号。

他們調用 GPT-4 模型,讓它在每一步的可選動作中選擇,作為環境回報更合适的文本動作,并進一步指導“學生”達成最終的目标。

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

圖丨豐富的測試場景,智能體被要求在不同的場景下完成各種各樣的家務勞動(來源:ProcTHOR)

由人根據場景進行标注操作,成功率大約在 91% 左右。在沒有人的幹預,隻包含機器人攝像頭看到場景條件下,成功率在 20% 左右。

該團隊基于 Unity3D 渲染的仿真環境 ALFWorld,在包含幾千種不同的家務勞動場景下,要求機器人完成洗盤子、拿蘋果、倒垃圾等指令任務。通過這種新方法訓練的智能體,任務成功率顯著提升 20%-70%,最終實作了 88% 的成功率。

“這也是目前唯一一個接近人類成功率的方法。未來,如果我們的方法進一步實作規模效應,有希望用更大的模型在測試環境下達到或超越 91% 成功率。”楊一君說。

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

圖丨ALFWorld 中視覺環境下三種基于視覺-語言模型的智能體的比較圖(來源:arXiv)

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

将繼續擴充具身智能體訓練架構

在大語言模型出現之前,楊一君的研究方向是強化學習,所做的研究包括離線強化學習、持續強化學習等。這些探索也為本次研究奠定了堅實的基礎,并具有一定的啟發和促進作用。

“基于将技術應用到實際問題的考慮,随着大語言模型的出現,我的研究方向逐漸轉向利用大語言模型的先驗知識,幫助提升強化學習算法的效率。”他說。

科學家提出模仿學習算法,讓智能體與現實世界有效對齊

圖丨楊一君(來源:楊一君)

不可忽視的是,強化學習最大的問題在于,通過與環境不斷地互動試錯,需要巨大的資料量,才能學習到較為理想的政策,但是具身智能中的資料昂貴,這也是最難解決的問題之一。

下一步,該課題組計劃繼續擴充該方法,以實作更高的性能。楊一君表示:“我們将嘗試把人的回報引入到算法架構中來。并且,可以把人的回報與大語言模型的回報混合在一起,來解決成本高昂的問題。”

另一方面,他們還打算從優化模仿學習算法的角度,嘗試解決資料與環境互動次數過多的問題。實際上,智能體與環境互動的次數和成本息息相關。研究人員希望,在達到相同學習性能的條件下,盡可能地限制與環境互動的次數。

例如,使用元學習的方式,能夠讓機器人複用與此前訓練過的、常識性和通用性的先驗知識,來幫助加速完成與之類似的任務(持續強化學習),通過該方法,在很大程度上能夠減少環境的互動部署。

楊一君舉例說道:“比如,機器人之前已經學習過洗盤子,讓它再去學習洗碗時,從本質上和洗盤子是類似的。”

從前很多人認為算法設計得足夠精巧,才能夠真正地解決某個問題,但是,随着大語言模型的出現和發展,逐漸改變了人們看待解決人工智能問題的方式。

現階段的情況是,算法可以足夠簡單,但所需要的計算資源和資料量需要足夠大。也就是說,相較于算法,資料和算力資源變得更加重要。

之前人工智能的研究主要集中在感覺問題,它解決的是能夠認識物體的問題或功能,比如用計算機視覺做檢測分割、深度估計、目辨別别等。

談及人工智能的下一步可能的發展,楊一君表示:“人工智能的下一步,應該是從感覺問題轉化到決策問題。”

未來,希望能夠借助大語言模型解決問題的方式,以更多的資料、更大的算力以及更大的模型,來解決決策的問題。

“在決策問題上,我們期待能夠出現通用的決策模型,以解決各種各樣的決策問題,我覺得這可能是未來的一個裡程碑式的進展。”楊一君最後說道。

參考資料:

1.Yijun Yang et al. Embodied Multi-Modal Agent trained by an LLM from a Parallel TextWorld. arXiv:2311.16714v2(2024). https://arxiv.org/abs/2311.16714

2.https://procthor.allenai.org/

營運/排版:何晨龍

繼續閱讀