WebAgent-基于大型語言模型的代理程式

作者：AI研習所 2023-07-30 14:38:00

大型語言模型（LLM）可以解決多種自然語言任務，例如算術、常識、邏輯推理、問答、文本生成、互動式決策任務。最近，LLM在自主網絡導航方面也取得了巨大成功，代理程式助HTML了解和多步推理的能力，通過控制計算機或浏覽網際網路進行一系列計算機操作，以滿足給定的自然語言指令。

然而，現實世界的網站上的網絡導航仍然存在以下問題：

（1）缺乏預定義的操作空間。

（2）HTML觀察比模拟器更長。

（3）LLM缺乏HTML領域知識。

考慮到現實世界網站的開放性和指令的複雜性，提前定義适當的操作空間是具有挑戰性的。此外，盡管有幾項研究認為通過指令微調或根據人類回報進行強化學習可以改善對HTML的了解和網絡導航的準确性，但最近的LLM并不總是具有處理HTML文檔的最優設計。大多數LLM的上下文長度與現實網站上HTML的平均标記相比更短，并且沒有采用特定的HTML領域知識。

針對上述問題，研究人員引入了WebAgent，這是一個由LLM驅動的代理程式，可以通過組合規範化的網絡操作在現實網站上根據使用者指令完成導航任務。WebAgent通過将指令分解為規範化的子指令來進行規劃，将長HTML文檔轉化為與任務相關的片段，并通過生成的Python程式對網站進行操作。研究人員将兩個LLM組合成WebAgent：Flan-U-PaLM用于基于代碼的生成，以及新引入的HTML-T5（一種新型預訓練LLM），用于規劃和摘要本地長HTML文檔。

通過實驗證明，該方法可以提高在現實網站上的成功率50%以上，并且HTML-T5是目前解決基于HTML任務的最佳模型；在MiniWoB網絡導航基準測試中，其成功率比之前最先進的方法高出14.9%，并且在離線任務規劃評估上也具有更好的準确性。

WebAgent-基于大型語言模型的代理程式

繼續閱讀

Llama 3：開源大語言模型的下一個前沿

大語言模型的應用秘訣：如何通過高效的提示詞掌控AI？

蘋果又被曝大動作，自研裝置端大語言模型，AI才是“重振雄風”新出路？

難怪之前傳iPhone16系列國行版本AI功能将由百度提供，原來百度在中國人工智能發明專利企業排名中還是靠前的。排名前十

蘋果釋出OpenELM，基于開源訓練和推理架構的高效語言模型

所羅門諾夫：大語言模型的先知

大語言模型部署：vLLM 與量化技術

蘋果發高效語言模型 OpenELM；小米策劃 15 萬元新車；AI 成功改寫人類 DNA|極客早知道

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

屬于各大科技公司的風口又來了！這次大語言模型引領“新工業革命

大語言模型落地為什麼第一步是做客服

OpenAI推出全新大語言模型GPT-4o；蘋果将在中國開售Vision Pro；軟銀幾乎全部出售阿裡股份

探索大語言模型：了解Self Attention| 京東物流技術團隊

知識圖與大型語言模型的協同作用

多功能RNA分析，百度團隊的RNA語言模型登Nature子刊

參數少量提升，性能指數爆發！谷歌：大語言模型暗藏神秘技能