天天看點

特約文章丨無任務學習及在機器人任務和運動規劃中的應用

作者:中國人工智能學會

文 / 張憲琦,範曉鵬

摘 要:

本文提出了無任務學習的方法,闡述了其與現有方法(包括自監督學習、遷移學習、模仿學習、強化學習)的差別與聯系;然後,介紹了無任務學習在機器人任務和運動規劃領域的應用,并分析了無任務學習在該領域的優勢和主要研究難點。最後,對無任務學習在機器人領域的發展,以及在生産生活中的應用前景進行了展望。

關鍵詞:

無任務學習;任務和運動規劃;機器人;人工智能

0 引言

1961 年,第一台工業機器人 Unimate 出現在通用汽車的産線上,自此,機器人在工業生産領域蓬勃發展。相比之下,家用機器人的發展卻不盡如人意,1921 年的舞台劇中為羅素姆服務的萬能機器人,在 100 年後的今天仍未能實作。相比工業機器人,家用機器人需要更強的智能,相關研究也面臨更多的困難,例如意圖識别、工具的使用和構造、面向任務的物體替換、使用者個性化定制等。近年來,智能決策、大語言模型等人工智能技術飛速發展,使得實作擁有類人智能的機器人逐漸成為可能。

目前,用于機器人智能決策的方法,主要可以分為強化學習和模仿學習兩類。強化學習方法需要設定任務相關的獎勵函數,以此引導智能體學習如何完成任務。相比之下,模仿學習讓智能體從預先收集的專家資料中學習知識,模仿專家的行為(行為克隆),或根據專家行為來學習一個合理的獎勵函數(逆強化學習)。然而,這兩種方法仍存在一些缺點,如設定任務相關的獎勵函數通常使得模型泛化性能較差,收集專家資料成本較高。為此,我們提出一種新的學習方法,稱為無任務學習(taskagnostic learning)。

無任務學習的提出,主要基于人類所學知識的碎片性和無目的性。知識的碎片性表現在完成具體任務所需的知識,通常不是連貫且完整學習的。一次性學習任務相關的所有知識後再去完成任務,在生活中并不常見,而是在生活中不斷積累,在面向具體任務時篩選整合碎片化知識來完成任務(可能還需要學習部分任務相關的新知識)。例如,我們很早以前就知道如何打開一扇門和如何擺放一個杯子,那麼對于把盤子放進冰箱的任務,隻需要遷移并合并這些碎片知識就可以了。而無目的性則表現在很多知識的擷取并沒有具體目标,反而更傾向于在環境探索過程中的偶然性。例如,我們發現新買的杯子有點重,或者某個書簽有點割手,這些知識在面向具體任務時會突然變得很有用,比如可能突然想起來某個杯子可以用來壓住紙條以免它被風吹走,又或是意識到某個割手的書簽用來拆快遞也許很合适。受到上述現象的啟發,我們提出無任務學習。另外,相比任務不敏感學習一類的稱呼,我們更傾向于稱為無任務學習,因為在知識的學習過程中,可能并沒有目的 / 任務。

在本文以下的内容中,首先給出無任務學習的定義,以及與現有方法的差別與聯系;其次,介紹一種基于無任務學習的機器人任務和運動規劃方法,并讨論在該研究領域中無任務學習的優勢與難點;最後展望無任務學習的發展和應用前景。

1 無任務學習

1.1 基本定義

如果一個學習方法的訓練資料完全是由與最終目标任務不直接相關的方法來收集的,且在解決最終任務時無需重複訓練模型,我們将這種學習方式稱為無任務學習。同時,預設訓練資料中包含能夠解決最終任務的碎片化知識。具體到機器人相關的研究領域,如果環境探索方法與最終任務不直接相關,例如完全随機的環境探索、新奇性引導的環境探索等,我們稱利用此類探索資料來引導智能體學習知識的方法為基于無任務學習的智能決策方法。

1.2 與現有方法的差別與聯系

自監督學習(self-supervised learning)通常用于特征提取模型的預訓練,通過自行設定資料标簽(即監督信号)來完成自監督學習。例如,用掩碼覆寫圖像部分區域訓練模型恢複圖像,或者将圖像切塊打亂後訓練模型正确排列圖像塊等。這種方法更側重于使模型能夠更好地提取特征,可以作為輔助任務來提升模型性能,或作為預訓練模型并針對下遊任務微調以提升性能。相比之下,無任務學習更側重限制訓練資料與測試任務的關系,而不強調訓練資料的監督信号是如何産生的,可以是由曆史任務相關資訊來設定,也可以通過自監督方法設定。

遷移學習(transfer learning)通過将源域學習到的知識遷移到目标域中,以減少模型對新任務(即目标域)的資料需求,并使模型在目标域任務上獲得更好的性能。這通常要求源域與目标域存在較強的關聯關系或相似性。這與無任務學習存在一定的相似性,即需要源域 / 訓練資料中存在能夠解決目标域 / 目标任務的知識。但無任務學習更強調知識的碎片性,即整體訓練資料中的任務可能與目标任務存在較大差别。

強 化 學 習(reinforcement learning,RL)通過設定獎勵函數來引導智能體探索環境和學習如何解決任務,近年來在很多領域取得了巨大成功,如AlphaGo。然而,設定任務相關的獎勵函數,通常需要任務相關的專業知識,并且使得智能體泛化性能不佳。一個與無任務學習較為相關的分支是目标導向的強化學習,相比傳統強化學習,額外增加目标作為輸入,使得智能體能夠完成多任務,然而它仍然需要設定目标相關的獎勵函數。此外,近年來有很多學者提出自監督強化學習,然而這些方法通常是采用自監督方法來提取狀态特征,或将其與獎勵函數的設定相結合,完全摒棄任務相關的獎勵函數,目前仍是十分困難的,使其與無任務學習存在根本差别。

模仿學習(imitation learning,IL)需要收集大量專家資料用于智能體訓練。智能體可以監督學習的方式訓練智能體模仿專家行為(行為克隆),或者從專家示範中學習一個良好的獎勵函數(逆強化學習)。此外,還有很多工作将其與生成對抗的思想相結合(生成對抗模仿學習)。然而,專家資料通常是對具體任務的示範,這與無任務學習對訓練資料的要求是完全不同的。目前,有部分工作利用與目标任務不直接相關的資料來輔助強化學習和模仿學習來訓練智能體,但仍将該類資料作為次要輔助。

2 無任務學習在機器人任務和運動規劃中的應用

2.1 基于無任務學習的機器人任務和運動規劃方法

本小節主要介紹基于無任務學習的機器人任務和運動規劃方法,其主要架構如圖 1 所示。

特約文章丨無任務學習及在機器人任務和運動規劃中的應用

圖 1 基于無任務學習的機器人任務和運動規劃

2.1.1 場景重建和了解

我們選擇真實場景 - 虛拟場景 - 真實場景的架構(real to simulation to real,Real2Sim2Real)來進行機器人任務和運動規劃(task and motion

planning,TAMP),即通過三維重建和場景資訊估計等技術将真實場景資訊在虛拟場景(即實體模拟器)中重建,在虛拟場景中完成決策後,在真實場景中執行被選擇的動作。為了完成 Real2Sim 的轉換,采用基于深度圖的三維重建方法,而物體屬性(大小、材質等)則通過相關的人工智能方法估測。常用機器人和由于建構虛拟場景的實體模拟器,如圖 2 所示。

特約文章丨無任務學習及在機器人任務和運動規劃中的應用

圖 2 常用機器人和實體模拟器

2.1.2 環境探索

為了使智能體了解不同動作在環境中與物體互動産生的效果(action effect)、直覺實體(intuitive physics)等資訊,需要在環境中執行不同的動作來收集資料,以便于後期智能體學習。環境探索方法采用與任務目标不直接相關的方式進行,以模拟人在日常生活中與環境的互動方式。探索方法可采用随機探索、新奇性引導的環境探索或者其他與任務不直接相關的内在獎勵(intrinsic reward)驅動的探索方法。資料儲存為 […, 狀态 i,動作 i,狀态 i+1,…],包含用于解決下遊任務的碎片化知識。對于機器人動作執行,我們預設采用機器人運動學和動力學(kinematics and dynamics)解決相關問題,并且不對控制方法做額外要求(采用運動控制、力控制或混合控制等方式,與具體問題相關)。

2.1.3 知識學習

對物體屬性和功能的學習、對客觀規律的總結抽象、對動作執行結果預判等能力是人類智能的核心,也是人工智能要解決的關鍵問題。知識可以分類為低層知識和高層知識,其中低層知識與具體環境相關,主要涉及場景了解(scene understanding)等研究領域,即在目前環境中,機器人采用不同動作與物體互動時産生的結果;高層知識僅與物體類别等屬性相關,主要涉及物體功能學習(functional and affordance reasoning)、工具的使用(tool use)、實體規律(physics/ intuitive physics)、因果推理(causality)等研究領域。針對低層知識的學習,我們将目前場景中物體資訊直接作為神經網絡模型的輸入,而針對高層知識,可以提取物體類别、形狀、材質等資訊作為神經網絡模型的輸入。

與動作執行效果相關的知識對于後續任務和運動規劃是十分必要的,為了學習此類知識,一個簡單的方法是将任務執行前後的物體狀态與相應的動作輸入神經網絡中,将提取的特征資訊作為對應動作執行效果。為了使提取到的動作效果特征更準确,可能還需要額外的限制,例如,相同動作對應特征盡可能相似。在某些情況下,動作效果特征與物體特征的結合,可作為碎片知識,可以通過組合來完成具體任務。當然,碎片知識的表示也可以采用其他知識表示方式。

2.1.4 任務和運動規劃

任務和運動規劃中,任務規劃将一個目标任務分解為多個子任務,這與人類不斷将複雜問題簡化為多個簡單子問題來解決的情況相似;而運動規劃則解決機器人實際運動時從一個開始狀态到終止狀态的問題,需要滿足無碰撞、符合具體機器人關節力矩和位姿限制等限制條件。由于任務規劃隻關注離散的任務空間,且通常不考慮現實環境和機器人硬體實作,是以可能存在子任務難以完成的情況。為此,近年來很多學者将兩者相結合,利用一個規劃器來同時考慮任務和運動規劃兩部分。

為了将無任務學習應用于任務和運動規劃問題,一種任務分解方法是将目前環境狀态和具體任務資訊作為神經網絡輸入,将模型輸出作為子任務,同時,限制子任務特征可以由某些碎片知識合成。通過子任務特征和已學習的碎片知識特征,篩選合适的碎片知識用于完成任務。而針對機器人運動規劃問題,可以利用已儲存的探索資料來訓練神經網絡模型解決,類似目标導向的強化學習方法,或采用其他傳統方法,如網格方法(grid methods)、虛拟勢場(virtual potential fields)等。

我們采用真實場景 - 虛拟場景 - 真實場景的架構來模拟人類思考方式,即大腦通過視覺等資訊對真實場景進行重建,在大腦中思考并模拟動作結果後,最終選擇合适的動作在真實場景中執行來完成任務。對應的,首先利用深度錄影機擷取的深度圖像在虛拟環境中對真實場景重建;然後在虛拟場景中進行思考(規劃);最後将思考結果(動作)在真實場景中執行以獲得新的環境狀态,疊代思考和執行直到任務完成。由于思考(規劃)在虛拟環境中進行,可生成多個思路(即動作序列),篩選最優解在真實環境中執行,這與蒙特卡洛樹搜尋相似,但其模拟部分不是直接計算(例如圍棋等,可根據目前棋盤狀态和動作,直接計算下一個棋盤狀态)或由神經網絡模型估測,而是采用虛拟環境(實體模拟器)模拟計算的。

2.2 優勢與難點分析

采用無任務學習極大地降低了相關人工智能方法的資料需求,并促進了類人智能機器人的實作。在資料方面,由于無任務學習僅需要與任務不直接相關的探索資料,使得無需收集專家資料或設計可能需要較強領域經驗的獎勵函數,極大地降低了資料成本。此外,由于與任務不直接相關的探索資料更容易擷取,使得智能體可以獲得更大規模的訓練資料。無任務學習的一個難點是碎片化知識的學習和表示方法,以及面向具體任務時,碎片化知識的檢索和拼接。由于完全沒有專家資料或獎勵資訊引導,使得碎片化知識的表示在面向不同環境和任務時,難以取得良好的泛化效果。一個可能的解決方法是将無任務學習與模仿學習相結合,通過少量的專家資料引導碎片化知識的提取和拼接,這種取長補短式的組合可能是更為合理的,類似人類的知識學習過程,一部分來自自身的探索和思考,另一部分來自父母師長的言傳身教。

3 未來展望

3.1 發展前景

下面介紹幾個可能與無任務學習相結合的研究領域,同時也對應智能機器人的幾個亟待解決的問題。

3.1.1 工具的使用和構造

相比于機器人與物體直接互動,工具使得機器人與物體間接互動。合适的工具可以使任務更容易完成,例如,使用箱子可以一次搬運多個物體。然而,在生活中,工具的使用和構造對于機器人通常是較為困難的問題。

對于工具的使用,一方面,相同工具在不同任務中的使用方法不同。例如,直接使用向下的力可以用于切斷偏向剛體的物體,但為了切斷可變形物體,額外施加前後的力來“鋸”也是必不可少的。另一方面,相同工具在同一任務的不同階段可能存在不同的使用方式。例如,在牆上釘釘子時,初始時可能采用靠前的握持位置和較小的揮動幅度,以将釘子初步固定,在後期采用更靠後的握持位置和更大的揮動幅度,以此用更大的力使釘子沒入牆壁。

對于工具的構造,一方面,物體的某一屬性可以使得物體能夠成為工具。例如,将書本的一個平面當作托盤。另一方面,面向具體任務時,依據單一屬性構造的工具可能并不能滿足任務需求。例如,書本可以作為托盤用于運輸水果,但用于運輸盛滿水的茶杯可能并不是好的選擇。

3.1.2 面向任務的物體替換

智能機器人面臨的另一個較大的難題是面向任務的物體替換,這主要是由于訓練資料中難以覆寫千變萬化的工作環境。智能體規劃結果中涉及的物體在實際工作環境中可能并不存在,這是極有可能發生的問題。然而如何判定物體間相似性,并以此選擇替換物品是較為困難的問題。這與目前人工智能中通常采用外形特征判定相似性不同,通常還與具體任務相關,并且需要滿足一些約定俗成的習慣。例如,在廚房裡,有時候鹽和醬油可以互相替換,有時候醬油又和醋互相替換;但是,即便冰糖和水果糖再相似,後者也很少出現在廚房裡作為前者的替代品。

3.1.3 使用者個性化定制

使用者的個性化定制,可視為智能體對使用者偏好的自适應。在今天,大部分應用都包含使用者個性化推薦的功能,對于直接用于滿足使用者需求的智能機器人,智能體決策中考慮使用者偏好,以提升使用者體驗,也是必然的發展方向。然而,個體的偏好通常是較難學習的。一個原因是人類對于偏好的表達較為複雜,多次的物體互動并不直接表示對于該物體的喜好,還與互動類型和互動意圖相關。例如,某本書通常用來墊桌角或當桌墊,盡管多次互動,但偏好仍然是負向的,這使得智能體做出将這本書放在書架上,或者用其他的書來作為桌墊都是錯誤的行為,但相同作者的其他書被同樣對待也許是正确的。

3.2 應用前景

由于無任務學習降低了智能體對資料的要求,結合真實場景 - 虛拟場景 - 真實場景架構,可以利用探索資料在虛拟場景中高效學習,并在真實場景中驗證,利用回報資訊逐漸調整,以實作已學習知識與具體工作環境的适配。在生産方面,可以替代人在危險作業區域作業,如煤礦、野外等;在生活方面,可用于家用機器人對居家環境的探索和物體屬性的學習,以便于知識遷移完成具體任務。

4 結束語

本文提出了無任務學習方法,介紹了無任務學習的定義以及與現有方法的差別與聯系,并介紹了其在機器人任務和運動規劃中的應用,最後,展望了未來可能的發展方向和實際應用前景。期待智能機器人的進一步發展,早日便捷人們的生活。

(參考文獻略)

特約文章丨無任務學習及在機器人任務和運動規劃中的應用

張憲琦

哈爾濱工業大學博士研究所學生。主要研究方向為機器人、計算機視覺。

特約文章丨無任務學習及在機器人任務和運動規劃中的應用

範曉鵬

哈爾濱工業大學教授,國家級高層次人才。主要研究方向為視訊編解碼、計算機視覺、機器人。

選自《中國人工智能學會通訊》

2024年第14卷第2期

科研新範式:All-in-One下的基礎模型專題

掃描加入我們

擷取更多學會資源

繼續閱讀