天天看點

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

機器之心專欄

作者:李思哲、黃志翺、淦創等

來自于mit-ibm 機器人研究院院長淦創團隊的工作提出了一種接觸點發現算法 CPDeform,将基于最優傳輸的接觸點發現算法內建到可微實體求解器中,克服了初始接觸點次優或接觸點切換時的局部極小值問題。

最近的研究表明,可微分實體是解決軟體控制任務的強大工具。然而,當末端執行器的初始接觸點次優或在多階段任務中執行接觸點切換時,可微實體求解器經常會卡住并導緻局部最小值。

為了解決該問題,來自于mit-ibm 機器人研究院院長淦創團隊的研究者提出了一種接觸點發現方法 (CPDeform)。該方法的關鍵思想是将基于最優傳輸的接觸點發現算法內建到可微實體求解器中,以克服初始接觸點次優或接觸點切換時的局部極小值,并在單階段任務和多階段任務上分别取得良好性能。論文已被 ICLR 2022 接收為 Spotlight Presentation。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

論文位址:https://openreview.net/forum?id=mmUA7_O9mjY

1. 簡介

軟體操縱在烹饪、織物操縱、醫療保健和可變形物體的制造中有着廣泛的應用。微分實體最近被證明是一種強大而解決軟體操縱任務控制問題的有效工具。PlasticineLab 展示了當給定參數化操縱政策,可微實體求解器可以通過計算政策參數的梯度來實作比強化學習算法更高效的政策優化,進而高效的找到軟體操縱任務上最優解。

但是,基于梯度的可微實體求解器的性能會受到政策初始化的嚴重影響。末端執行器與物體的初始接觸點在優化中起到至關重要的作用。不同的接觸點可能導緻優化結果上的巨大差異由于局部最優。此外,有些任務需要 agent 在操縱期間進行接觸點切換,在這種情況上局部最優問題成為完成這些多階段任務的嚴重瓶頸。

例如,如圖 1 所示,一個 agent 需要控制 “筆” 在黃色橡皮泥立方體的表面寫下兩條豎線。為了完成第二條線,agent 需要在繪制第一個後切換接觸點。然而,獨立的可微實體求解器可能可以畫出第一條線,但它經常在此之後卡住并難以繪制第二個。這是因為缺少能将筆推到新的接觸點的梯度。是以,如何為軟體操作任務自動找到合适的接觸點在可微實體中仍然是一個挑戰。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 1

在本文中,我們根據接觸點問題提出了一個架構 CPDeform,該架構的關鍵思想是将基于最優傳輸的接觸點發現算法內建到可微實體求解器中。通過把軟體操縱是為粒子傳輸問題,CPDeform 使用最優傳輸來比較目前形狀與目标形狀并獲得粒子的傳輸優先級。通過利用傳輸優先級,CPDeform 啟發式地找到末端執行器的接觸點。找到接觸點後,CPDeform 可以結合可微分實體求解器,來去解決軟體操縱任務。在不需要切換觸點的單階段任務上,CPDeform 可以找到合适的初始觸點來完成任務。

在多階段任務上,CPDeform 基于運輸優先級可以疊代切換末端執行器的接觸點。使用圖 2(右)所示的示例,其中目标是重塑橡皮泥立方體變成飛機,CPDeform 可以基于運輸優先級來疊代切換末端執行器的接觸點。我們對于這種疊代變形過程的啟發來源于觀察人類如何操縱橡皮泥。如圖 2(左)所示,當人類操作橡皮泥面團時,我們傾向于反複關注興趣點并将其修改為目标形狀。CPDeform 通過疊代地切換感興趣的接觸點來模仿這個過程,并在可微解算器的幫助下将軟體變形為目标形狀。通過将接觸點發現內建到可微實體求解器中,CPDeform 可以跳過接觸切換引起的局部最小值并提高獨立求解器的性能。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 2

本文的貢獻可以總結如下:

我們對初始可微實體求解器由初始觸點和觸點切換所導緻的局部最優問題進行了深入調查。

我們提出了一個架構 CPDeform,将基于最優傳輸的接觸點發現算法內建到可微實體求解器中。

CPDeform 的 接觸點發現 backbone 可以直接由可微實體求解器用于為單階段任務找到更好的初始接觸點。

在獨立求解器解決不了的多階段任務上,CPDeform 啟發式地找到末端執行器的接觸,并通過疊代來完成任務。

2. 方法

考慮軟體操縱的一種方法是将其視為粒子傳輸問題。通過評估将目前狀态粒子 x 傳輸到目标狀态粒子 y 的成本,最優傳輸提供了一個有用的架構來比較任何給定的對之間的差異形狀,可以幫助我們發現接觸點。給定一個成本矩陣 M,最優運輸希望找到運輸計劃 P 通過最小化運輸成本 。将問題轉化為對偶形式,我們有 OT(X, Y) := max E[f] +E[g] 使得 i, j, 拉格朗日乘數 f[i], g[j] 滿足 f[i] + g[j] ≤ M[i, j]。我們關注目前粒子的拉格朗日乘數 f (圖 3)。因為它代表了目前粒子的 support ,我們将 f 解釋為目前粒子 x 的傳輸優先級 (圖 4)。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 3

運輸優先級有助于選擇接觸點。給定一對目前和目标形狀,我們直覺地将末端執行器放置在兩者之間差異最大的區域周圍以大幅修改形狀。我們想要去将末端執行器放置在最佳操作政策可以最小化形狀差異的接觸點上。然而,直接評估接觸點的最優性在計算上是令人望而卻步的,是以我們不能通過窮舉搜尋來确定接觸點。是以,我們提出啟發式地識别接觸點,基于一個簡單的規則:選取高傳輸優先級的接觸點。我們觀察到具有高運輸優先級的接觸點大多對應具有優越的優化性能。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 4

為了放置操縱器,我們考慮一個候選姿勢集,其中每個姿勢對應一個獨特的操作政策。在飛機示例中(圖 5),我們有三個姿勢。對于每個姿勢,我們根據傳輸優先級放置操縱器。我們的直覺是鼓勵操縱器去覆寫高優先級區域。我們為每個姿勢運作可微實體求解器并獲得它們的動作軌迹。通過比較每個軌迹實作的形狀差異損失,我們選擇實作最低損失的姿勢。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 5:CPDefeorm 對于操縱器的放置

在找到最佳候選姿勢後,我們使用求解器優化的相應動作軌迹對目前形狀進行變形(圖 6)。由于可微實體求解器可以在優化過程中調整機械手方向,是以候選姿勢集在實踐中不需要很大。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 6:可微分求解器對軟體進行變形

然後我們重複這個過程進行疊代變形(圖 7)。綜上所述,對于每個階段,我們根據傳輸優先級找到接觸點,并執行可微實體優化以使目前形狀變形。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 7: CPDeform 疊代變形的過程

3. 實驗

我們進行了多項實驗來測試 CPDeform 在軟體操作任務上的功效, 來回答兩個主要問題:

在涉及多個觸點切換的多階段任務中,CPDeform 能否完成這些任務通過疊代操作軟體?

假如我們在單階段任務上限制隻允許一個接觸點 (one shot),我們的接觸點發現方法 (CPDeform backbone) 的魯棒性如何?

為了廣泛評估我們的方法,我們提出了 PlasticineLab-M,擴充 PlasticineLab 到七個新的具有挑戰性的多階段軟體操縱任務,并包含 PlasticineLab 中的多階段環境 Pinch。我們在圖 8 中展示了這八個多階段任務。我們還使用 PlasticineLab 中剩餘的單階段任務來評估我們的接觸點發現方法。對于多階段環境,我們使用 Wasserstein-1 距離評判與目标的差異。對于單階段環境,我們使用 IoU 名額與 PlasticineLab 進行公平一緻的比較。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 8: PlasticineLab-M 的任務示例

我們在表 1 中展示了定量結果,在圖 9 中展示了定性結果。我們發現我們的方法能夠完成這些複雜的任務,并且明顯優于基線。我們發現通過發現的接觸點,我們的方法能夠疊代地建構和改進飛機的機頭、機尾和機翼。在椅子上,我們發現我們的方法引導求解器首先建立一般座椅,然後改進扶手和椅背。在 Bottle 中,我們的方法首先在細化瓶子的側面之前,将橡皮泥立方體的頂部向下推以建立頸部。對于 Move++,我們的方法能夠通過選擇來完成三個立方體的運輸任務在每個階段轉移的最有利的對象。在 Rope++ 中,我們的方法首先移動繩索在精煉繩子的末端之前,形成大緻的形狀。在 Writer++ 中,我們的方法能夠疊代引導微分實體求解器在橡皮泥立方體上寫出 “ICLR” 字母。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

圖 9:多階段任務環境中 CPdeform 和 PlasticineLab 的定性結果。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

表 1:多階段任務上平均 Wasserstein-1 距離和每種方法的标準差

為了進一步證明我們方法的有效性,在單階段任務上,我們将 CPDeform backbone 所發現的一次性接觸點和 PlasticineLab 中人工定義的接觸點進行對比。從表 2 中我們可以看到,在大多數單階段任務上,CPDeform 的性能優于或類似于 PlasticineLab 中人工定義的初始接觸點。

ICLR 2022 Spotlight|讓AI學會捏橡皮泥飛機

表 2:單階段任務上平均歸一化增量 IoU 分數和兩種方法的标準偏差。

4. 總述

在本文中,我們提出了一個新的架構 CPDeform,它将基于最優傳輸的接觸點發現算法內建到可微實體求解器中。廣泛的實驗表明在單階段任務上我們提出的接觸發現方法性能優于或類似于人工定義的初始接觸點。在使用獨立的微分求解器解決不了的多階段任務上,CPDeform 采用啟發式搜尋方法疊代解決任務。我們的工作證明了接觸點在可微實體政策學習中的重要性和幾何分析方法作為啟發式的優勢。未來工作的有趣方向包括推廣發現通過學習各種形狀的方法來獲得有用的接觸點,并應用類似的接觸點發現原理用于靈巧的剛體操縱,或将其與其他規劃方法進行結合。

繼續閱讀