各位看官閱讀之前，請您點選一下“關注”，既友善您讨論與分享，又能給您帶來不一樣的參與感，感謝您的支援。

文丨吐不滿的痰娛

編輯丨吐不滿的痰娛

前言

任務規劃可能需要定義有關機器人需要行動的世界的無數領域知識，為了改善這一工作可以使用大型語言模型在任務規劃期間對潛在的下一步動作進行評分，甚至在沒有額外領域資訊的自然語言指令的情況下直接生成動作序列。

此類方法要麼需要枚舉所有可能的後續步驟進行評分，要麼生成自由格式的文本，其中可能包含給定機器人在目前上下文中不可能執行的操作，提出了一種程式化的大型語言模型提示結構，可以跨情境環境和機器人功能以及任務生成計劃。

在基于機器人任務規劃中引入了情境意識

日常家務勞動既需要對世界的常識性了解又需要對目前環境的情境了解，為了制定做晚飯的任務計劃智能體需要物體可供性常識和動作的邏輯順序以及物體和動作的任務相關性，如果沒有狀态回報這種推理是不可行的。

在大型語料庫上訓練的自回歸大型語言模型可生成以輸入提示為條件的文本序列，具有顯著的多任務泛化能力，這種能力被用來在機器人任務規劃的背景下生成合理的行動計劃，通過對後續步驟進行評分或直接生成新步驟。

在評分模式下從可能的空間評估一系列行動及其論點列出可能的行動，在文本生成模式下大型語言模型可以生成接下來的幾個單詞，然後需要将其映射到代理可用的操作和世界對象，如果生成伸手拿起泡菜罐，則該字元串必須巧妙地映射到拿起罐子等可執行操作。

基于大型語言模型的任務規劃中缺少的一個關鍵組成部分是來自環境的狀态回報，在基于機器人任務規劃中引入了情境意識。

引入了一種超越自然語言條件的提示方案，利用程式設計語言結構和在包含許多程式設計教程和代碼文檔的龐大網絡語料庫上進行教育訓練的事實提供了一個大型語言模型，其中包含可用操作及其預期參數的導入語句和環境對象清單以及函數定義其身體是作用于物體的一系列動作。

通過斷言計劃的先決條件來整合來自環境的情境狀态回報，并通過恢複操作來響應失敗的斷言，在程式中包含自然語言注釋來解釋即将采取的行動的目标可以提高生成的計劃程式的任務成功率。

建立一個大型語言模型

将機器人計劃表示為Python程式，遵循大型語言模型提示範例建立一個以Python代碼結構的提示并使用大型語言模型來完成代碼，使用Python中提供的功能來建構提示，引導生成以自然語言指令為條件的定位機器人任務計劃。

利用代碼中的注釋為後續操作序列提供自然語言摘要，注釋有助于将進階任務分解為邏輯子任務，使用注釋将任務分解為子任務，這種劃分可以幫助人類用自然語言和援助計劃表達其有關任務和子任務的知識。

評論還為人類提供了近期目标的資訊減少了不連貫或重複輸出的可能性，還展示了稱為思想鍊的類似中間摘要對于提高人類在一系列算術和符号推理任務上的表現的功效，斷言提供了一種環境回報機制，鼓勵滿足先決條件并在不滿足時允許錯誤恢複的可能性。

通過即時建構向人類提供有關環境和原始動作的資訊，為人類提供了示例任務和計劃的示例，它接收所有資訊并生成一個Python提示以供大型語言模型完成。

為了向大型語言模型告知代理的操作原語将它們作為Pythonic導入語句提供，這些鼓勵人類将其輸出限制為僅在目前上下文中可用的函數要更改代理，隻需要一個代表代理操作的導入函數的新清單。

以字元串清單的形式提供環境中的可用對象，由于提示方案明确列出了模型可用的函數和對象集，是以生成的計劃通常包含代理可以采取的操作以及環境中可用的對象。

每個示例任務都示範了如何使用給定環境中的可用操作和對象來完成給定任務，這些示例示範了作為函數句柄給出的任務名稱與要采取的操作之間的關系以及對涉及的操作和對象的限制。

給定的任務由大型語言模型根據提示完全推斷出來，生成的計劃使用解釋器在虛拟代理或實體機器人系統上執行，該解釋器針對環境執行每個操作指令，斷言檢查在執行期間以閉環方式完成提供目前環境狀态回報。

通過虛拟家庭環境和實體機器人操縱器評估

當執行生成的程式時會結合環境狀态回報來響應斷言，以狀态圖的形式提供具有對象屬性和關系的觀察結果，為了檢查此環境中的斷言從狀态圖中提取有關相關對象的資訊，并提示大型語言模型傳回斷言是否成立并以文本提示的形式給出狀态圖和斷言。

使用帶有平行颌夾具的機器人使用取放政策，該政策将目标對象和目标容器的兩個點雲作為輸入并執行拾取和放置操作以将對象放置在容器上或容器内來避免碰撞并生成抓取姿勢。

指定單個導入語句使用開放詞彙對象檢測模型ViLD來識别和分割場景中的對象并建構提示的可用對象清單，與虛拟環境中對象清單是所有任務共有的全局變量不同，這裡對象清單是每個計劃函數的局部變量，這允許更大的靈活性來适應新對象。

使用ViLD分割掩模和深度圖像映射到點雲的文本字元串，由于現實世界的不确定性不會在桌面計劃上實作基于斷言的閉環選項。

證明大型語言模型是虛拟和實體代理生成的有效方法

利用GPT3作為語言模型主幹來接收語言模型提示并生成計劃，運作過程中性能的變化源于對大型語言模型輸出的采樣，還包含了最近GPT4主幹網的結果，與GPT3語言模型不同GPT4是一種聊天機器人模型，經過人類回報強化學習訓練可充當有用的數字助理。

GPT4将系統提示作為輸入後跟一個或多個使用者提示，GPT4不是簡單地自動完成提示中的代碼而是将使用者提示解釋為問題并作為助手生成答案。

在消融實驗中繼續使用GPT3作為主要大型語言模型主幹，向社群的建議是利用類似程式的提示來進行基于大型語言模型的任務規劃和執行，基礎GPT3效果很好并且大型語言模型對程式設計語言資料進行了進一步微調可以做得更好。

示例程式中的回報機制即斷言和恢複操作可以提高各個名額的性能，唯一的例外是當沒有注釋時，在沒有回報的情況下會稍微提高一些在提示示例代碼中，從提示代碼中删除注釋會大大降低所有名額的性能，這凸顯了程式設計語言結構中自然語言指導的有用性。

根據可用對象的自然語言文本描述和示例任務計劃建構提示，微調GPT2以學習政策将這些生成的序列映射到模拟環境中的可執行操作，使用訓練集中的任務并注釋文本步驟和相應的操作序列以獲得資料點用于訓練和驗證該政策。

雖然此方法取得了合理的部分成功，但它與程式可執行性不比對并且不會生成任何完全成功的任務執行。

逐個任務的性能測試集中每個任務的性能，與提示示例類似的任務具有更高的GCR，因為基本事實提示示例暗示了良好的停止點，因為某些任務具有多個适當的目标狀态但僅針對單個真實目标進行評估。

常見故障模式的特征包括使程式與部署環境及其特性無關的決定，這可以通過顯式通信來解決，還有VH代理在坐着時無法找到附近的物體或與之互動并且VH中不提供一些針對物體的常識性動作。

當對象不可通路時生成的斷言可能不夠，操作成功回報不會提供給代理這可能會導緻後續操作失敗，計劃中的斷言恢複子產品可以提供幫助但生成時并不能涵蓋所有可能性，一些計劃因大型語言模型API上限而縮短。

除了這些失敗模式之外最終狀态檢查意味着如果智能體完成了任務可能會推斷失敗，因為環境目标狀态将與預先計算的地面真實最終目标狀态不比對，同樣一些任務描述是不明确的并且有多個看似合理的正确程式。

雖然目前狀态的人類的推理能力令人印象深刻，但提出的方法并沒有做出任何提供保證的聲明，雖然有效地防止了大型語言模型生成不可用的動作或對象，但根據大型語言模型的生成品質和推理能力仍然存在産生幻覺的可能性。

顯示的所有結果都帶有注釋但不帶有回報，實體機器人設定不允許可靠地跟蹤系統狀态和檢查斷言并且很容易由于抓握滑動等情況而出現随機故障，現實世界引入了随機性使系統之間的定量比較變得複雜。

希望實體結果能夠定性地證明提示方法可以輕松地将大型語言模型生成的計劃限制和基礎到實體機器人系統，在各種任務中無論有沒有幹擾對象系統幾乎總是成功僅在排序任務上失敗，由于随機夾具故障沒有幹擾器的運作失敗。

結語

提出了一種用于機器人任務規劃的人類提示方案，該方案彙集了人類的常識推理和代碼了解優勢，建構的提示包括對世界的情境了解和機器人能力使人類能夠直接生成可執行計劃作為程式。

作為一個社群隻是觸及了任務規劃的表面，即機器人計劃的生成和完成，希望研究程式設計語言功能的更廣泛使用，人類可以進行算術和了解數字，但其生成複雜機器人行為的能力仍相對未被充分開發。

文章描述過程、圖檔都來源于網絡，此文章旨在倡導社會正能量，無低俗等不良引導。如涉及版權或者人物侵權問題，請及時聯系我們，我們将第一時間删除内容！如有事件存疑部分，聯系後即刻删除或作出更改。

使用蟒蛇程式語言，建構一個大型語言模型，為機器人定義知識

前言

在基于機器人任務規劃中引入了情境意識

建立一個大型語言模型

通過虛拟家庭環境和實體機器人操縱器評估

證明大型語言模型是虛拟和實體代理生成的有效方法

結語

繼續閱讀

人形機器人服務的消費者保護機制——以“信任控制”風險為視角

美敦力手術機器人，裁員

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

蔡國慶：為國争光，大兒子在國際機器人大賽上獲得“世界賽冠軍”

京津冀三地簽約共建京津冀·“機器人+”産業園

移動機器人路徑規劃的前世今生！（一）全局路徑規劃

探讨機加工機器人防護服的安裝方法

探讨機加工機器人防護服的材質選擇

華數機器人防護服種類有

華數機器人防護服的重要性

華數機器人防護服——科技與安全的緊密結合

博羅一農莊驚現大蟒蛇，防蛇要領請牢記！

機器人子公司引戰投大基金二期認購扣非四年虧21.4億元

機器人子公司引戰投大基金二期認購扣非四年虧21.4億連續六年未派現

中國掃地機器人新“領頭羊”：去年賣出259萬台，銷售額全球第一

陳炳才：智能機器人是否具有感情？