天天看點

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

作者:大資料文摘
像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

大資料文摘授權轉載自夕小瑤科技說

作者:智商掉了一地

傳統的自動駕駛系統依賴于預先程式設計的規則和模式,限制了其适應性和靈活性。為了改進自動駕駛技術,研究人員開始嘗試使用具有語義了解和生成能力的大型語言模型(LLM),可以通過學習大量文本資料來生成人類類似的語言。

想象一下,你坐在車裡等紅綠燈,前方有一輛裝着交通錐的皮卡穿過十字路口。作為人類駕駛員,你能根據常識判斷這些交通錐是皮卡上的貨物,而不是道路施工。但對于許多自動駕駛系統來說,這種情況很難處理。開發者可以通過規則或收集車上交通錐的資料來解決這個問題,但遇到地面上标記禁止通行區域的情況時,算法會失敗。這就像解決一個問題又遇到另一個問題一樣,尤其是在現實世界中很罕見的情況。這就是為什麼我們認為傳統的自動駕駛系統在性能上面臨瓶頸的原因。

最近有項研究提出了一種新方法,用大型語言模型來重新思考自動駕駛技術。作者讨論了使用LLM來模拟人類了解駕駛環境,并分析其在處理複雜情況時的推理、解釋和記憶能力。他們認為傳統的自動駕駛系統在處理邊界情況時存在性能限制。為解決這個問題,提出了一個理想的自動駕駛系統,它能像人類一樣通過駕駛經驗和常識來解決問題。為了實作這個目标,我們确定了三個關鍵能力:推理、解釋和記憶。通過建構一個閉環系統,展示了在駕駛場景中使用LLM的可行性,以展示其了解和與環境互動的能力。實驗結果表明,LLM展示了令人印象深刻的推理和解決複雜情況的能力,為開發類似人類的自動駕駛系統提供了寶貴的見解。

代碼:

https://github.com/PJLab-ADG/DriveLikeAHuman

背景

自動駕駛車輛有兩種主要方法:子產品化和端到端。

  • 子產品化方法是由一些元件組成,處理不同的任務,比如感覺、規劃和控制。這種方法的好處是子產品化和多功能性。但是,調整流程和管理錯誤可能會有困難。
  • 端到端方法直接将傳感器輸入映射到規劃器或控制器指令。這種方法通常更容易開發,但缺乏可解釋性,難以診斷錯誤、確定安全和遵守交通規則。

最近的研究表明,結合兩種方法的優勢可以取得更好的結果。然而,在處理長尾資料或現實環境中的分布場景時,這兩種方法往往會變得脆弱,給安全關鍵的自動駕駛帶來挑戰。

在重新思考了自動駕駛的故事之後,作者解釋了為什麼傳統的自動駕駛系統在面對複雜場景時遇到困難。雖然基于優化理論的系統可以将複雜任務分解為子任務,但在處理複雜場景時,優化目标往往陷入局部最優,限制了泛化能力。增加更多資料隻能減小目前模型與優化方法的性能差距。這是因為優化過程偏向于學習資料中的主要模式,忽視了罕見的情況。如果不加入常識,模型的能力就無法提升。

此外,在持續的資料收集過程中,總會出現無窮無盡的未知長尾案例。與目前的解決方案相比,這些長尾邊緣案例往往令人難以應對,而人類則可以憑借經驗和常識輕松解決。是以出現了一個直覺的想法:我們是否可以制造出這樣一個系統,它可以像人類一樣通過持續駕駛來積累經驗,而非依靠有限的訓練語料庫進行拟合。

根據最近的研究,以前的子產品化自動駕駛系統可以被視為在任務特定語料庫上訓練的網際網路人工智能,而缺乏推理、解釋和自我反思等進階智能。作者主張,如果想要獲得一個能夠像經驗豐富的人類駕駛員一樣駕駛汽車的智能體,就有必要借鑒體驗智能研究的思路。

持續學習是駕駛的另一個重要方面。新手駕駛員在複雜交通情況下通常會小心駕駛,因為他們經驗有限。随着時間的推移,他們獲得更多經驗,遇到新的交通場景,發展新的駕駛技能,并鞏固以前的經驗,最終成為經驗豐富的駕駛員。現有的優化方法通過擷取失敗案例并重新訓練神經網絡來模拟持續學習的過程,但這種方法繁瑣昂貴且無法實作真正的持續學習。是以,我們需要一種更有效的方法來實作自動駕駛系統的持續學習。

大型語言模型(LLM)的成功讓人興奮,因為它展示了機器學習人類知識的程度。LLM的最新研究表明,在零樣本提示和複雜推理、具身化智能研究以及解決關鍵交通問題方面取得了令人印象深刻的表現。

  • PaLM-E采用微調技術來适應預訓練的LLM,以支援多模态提示。
  • Reflexion結合自我反思和思維鍊提示,進一步增強了智能體的推理能力,生成推理過程和任務特定動作。
  • VOYAGER提出了基于LLM的終身學習機制,包括提示機制、技能庫和自我驗證。這三個子產品旨在增強智能體更複雜行為的發展。生成式智能體利用LLM存儲智能體的完整經驗記錄,并将其綜合成更高層次的反思,以規劃行為。
  • Instruct2Act引入了一個架構,利用大型語言模型将多模态指令映射到機器人操作任務的順序動作。

自動駕駛系統設計

人類通過與真實環境的互動學習駕駛,并通過解釋、推理和總結各種場景及相應操作的記憶來完善道路感。

  • 歸納推理:由于具有邏輯推理能力,人類駕駛員可以運用常識總結規則,并在更普遍的場景中應用它們。
  • 演繹推理:以往的經驗可以在潛意識中被喚起,以處理不可預測的情況。

為了實作像人類一樣駕駛的目标,确定了系統三種必要的能力:

  1. 推理:在特定的駕駛場景下,模型應該能夠通過常識和經驗進行決策。
  2. 解釋:智能體所做的決策應該能夠被解釋。這表明了内省的能力和聲明性記憶的存在。
  3. 記憶:在推理和解釋場景之後,需要一個記憶機制來記住以往的經驗,并使智能體在面對類似情況時做出類似的決策。

基于以上三個特點,作者參考了人類學習的方式來設計和簡化駕駛系統的規範形式。

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

圖1:(a) 人類駕駛與現有自動駕駛系統之間的關系,特别強調了目前方法的局限性以及為何它們無法解決所有長尾案例。(b) 一個可以像人類一樣駕駛的系統的模式。該智能體可以探索和與環境互動,并根據專家的回報進行自我反思,最終積累經驗。

作者提出的基于LLM的方法如圖1(b)所示,這個模式包括四個部分:

  1. 環境與智能體進行互動,創造了一個舞台;
  2. 智能體就像一個駕駛員,能夠感覺環境并根據記憶和專家建議做出決策;
  3. 記憶允許智能體積累經驗并執行動作;
  4. 專家在智能體訓練時提供建議,并在行為不一緻時提供回報。

具體來說,環境、智能體和專家可以分别表示為真實世界或模拟器、人類駕駛員或駕駛算法,以及模拟器或教練的回報。

通過一個獨立的記憶子產品緊密跟随人類的行為。記憶子產品隻記錄與“專家”決策有所偏差的決策場景。專家可以是開發者對LLM決策的評估,也可以是真實世界中人類駕駛員的決策。一旦獲得專家回報,LLM會自我反思,找出決策偏差的原因。然後,它将總結交通情況并将其作為新的記憶添加到記憶體中,同時附上正确的決策。當再次遇到類似情況時,LLM可以快速檢索這個記憶并做出明智的決策。

實驗

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

▲圖4: The lane-change decision-making process by GPT-3.5

在圖4這個例子中,綠色的車子在最右邊的車道上,跟着車輛2并保持一定距離。之前,GPT-3.5判斷前車距離太遠,是以決定加速跟上車輛2。在開始ReAct過程時,GPT-3.5使用Get_available_action工具擷取目前時間步驟的四個可用動作。然後它發現車輛2仍在前方行駛,而且空閑和加速兩個動作都是安全的。GPT-3.5最終決定繼續加速,因為它“選擇與之前決策一緻的動作”,就像最終答案中解釋的那樣。結果,車子縮短了與前車的距離,有助于整體交通流暢。與第一個例子相比,由于引用了之前的決策結果,GPT-3.5使用的工具數量和推理成本顯著減少。

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

對于第二種情況,就是圖6(b)所示的情況,交通錐不僅在卡車床上,還散落在地面上。LLaMA-Adapter能夠準确地表示出這種情況。雖然與第一種情況有些微小的差異,但GPT-3.5的回答卻完全相反。它認為這種情況可能存在潛在的危險,因為卡車周圍有錐子散落,并建議自動駕駛汽車的駕駛員減速并保持距離,以避免與這些錐子碰撞。

以上例子展示了LLM在駕駛場景中強大的零-shot了解和推理能力。運用常識知識不僅使LLM能更好地了解場景中的意思,還使其能夠做出更合理的決策,更符合人類駕駛行為。是以,擁有常識知識提高了自動駕駛系統的能力上限,使其能夠處理未知的特殊情況,并真正接近人類駕駛員的駕駛能力。

總結

受到最近研究的啟發,大型語言模型(LLM)具有出色的能力和新技術(指令跟随、上下文學習)。近期工作已證明了LLM在推理、解釋和記憶方面的能力。是以,本文嘗試初步探索LLM在了解駕駛交通場景方面的能力,并通過一系列實驗分析LLM在處理類似長尾邊緣情況的場景中的推理、解釋和記憶能力。主要貢獻如下:

  • 深入研究了如何使自動駕駛系統像人類一樣駕駛,以避免在面對長尾邊緣情況時發生災難性遺忘,并總結出了實作像人類一樣駕駛的三個關鍵能力:推理、解釋和記憶。
  • 首次展示了在駕駛場景中使用LLM的可行性,并利用其在模拟駕駛環境中的決策能力。
  • 通過廣泛的實驗,展示了LLM強大的了解能力和解決長尾案例的能力。

以前的自動駕駛系統在處理一些特殊情況時有限制,因為它們容易忘記之前的經驗。是以,作者總結了自動駕駛系統應該具備的三種能力,包括推理、解釋和記憶。然後,設計了一個新的方法以模仿人類學習駕駛的過程。最後,使用GPT-3.5作為測試平台,展示了它在了解交通場景方面令人印象深刻的能力。作者初步揭示了這種方法在閉環駕駛中的潛力,強調了采用這項技術的好處和機會。

通過訓練模型,使其能夠了解和模仿人類駕駛的行為和決策過程。這樣使自動駕駛系統更智能、更靈活,能夠适應各種駕駛場景和情況。

然而,這種方法也面臨一些挑戰和限制:

  • 大型語言模型需要大量計算資源和資料進行訓練,可能增加系統的成本和複雜性。
  • 模型的性能和準确性可能受到訓練資料品質和多樣性的限制。

盡管存在着挑戰,但利用LLM重新思考自動駕駛技術仍然具有很大潛力。

這種方法可以使自動駕駛系統更智能、有适應性,為未來的交通和出行提供更安全和便利的解決方案。希望這項研究能夠為促進學術界和工業界創新提供新思路,建構一個像人類一樣駕駛的基于AGI的自動駕駛系統。

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

租!GPU雲資源新上線一批A100/A800營運商機房,服務有保障掃碼了解詳情☝

像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻
像人一樣開車,大語言模型建攻自動駕駛!自動駕駛迎來ChatGPT時刻

繼續閱讀