天天看點

WebAgent-基于大型語言模型的代理程式

作者:AI研習所

大型語言模型(LLM)可以解決多種自然語言任務,例如算術、常識、邏輯推理、問答、文本生成、互動式決策任務。最近,LLM在自主網絡導航方面也取得了巨大成功,代理程式助HTML了解和多步推理的能力,通過控制計算機或浏覽網際網路進行一系列計算機操作,以滿足給定的自然語言指令。

然而,現實世界的網站上的網絡導航仍然存在以下問題:

(1)缺乏預定義的操作空間。

(2)HTML觀察比模拟器更長。

(3)LLM缺乏HTML領域知識。

考慮到現實世界網站的開放性和指令的複雜性,提前定義适當的操作空間是具有挑戰性的。此外,盡管有幾項研究認為通過指令微調或根據人類回報進行強化學習可以改善對HTML的了解和網絡導航的準确性,但最近的LLM并不總是具有處理HTML文檔的最優設計。大多數LLM的上下文長度與現實網站上HTML的平均标記相比更短,并且沒有采用特定的HTML領域知識。

WebAgent-基于大型語言模型的代理程式

針對上述問題,研究人員引入了WebAgent,這是一個由LLM驅動的代理程式,可以通過組合規範化的網絡操作在現實網站上根據使用者指令完成導航任務。WebAgent通過将指令分解為規範化的子指令來進行規劃,将長HTML文檔轉化為與任務相關的片段,并通過生成的Python程式對網站進行操作。研究人員将兩個LLM組合成WebAgent:Flan-U-PaLM用于基于代碼的生成,以及新引入的HTML-T5(一種新型預訓練LLM),用于規劃和摘要本地長HTML文檔。

WebAgent-基于大型語言模型的代理程式

通過實驗證明,該方法可以提高在現實網站上的成功率50%以上,并且HTML-T5是目前解決基于HTML任務的最佳模型;在MiniWoB網絡導航基準測試中,其成功率比之前最先進的方法高出14.9%,并且在離線任務規劃評估上也具有更好的準确性。

WebAgent-基于大型語言模型的代理程式

繼續閱讀