天天看點

ReAct:在語言模型中結合推理和行為,實作更智能的AI

作者:資料派THU
ReAct:在語言模型中結合推理和行為,實作更智能的AI
來源:DeepHub IMBA           

本文約1200字,建議閱讀5分鐘

雖然ReAct已經顯示出很好的結果,但仍有改進的空間。

今天我們介紹一篇論文《REACT: Synergizing Reasoning and Acting in Language Models》,它是來自谷歌研究院和普林斯頓大學的一組研究人員在探索了在語言模型中結合推理和行為的潛力後釋出的結果。雖然大型語言模型(LLM)推理(思維鍊提示)和行動(行動計劃生成)的能力已經作為單獨的主題進行了研究,但這是第一次将這兩種能力組合到一個系統中。是以我覺得這是一篇重要的論文,因為ReAct架構允許虛拟代理使用諸如連接配接到web和SQL資料庫之類的工具,是以可以提供幾乎無限的擴充。

ReAct:在語言模型中結合推理和行為,實作更智能的AI

推理和行動的力量

人類智能的特點是将以任務為導向的行動和關于下一步行動的推理無縫結合。這種能力使我們能夠快速學習新任務并做出可靠的決定,而且可以适應不可預見的情況。ReAct的目标就是在語言模型中複制這種協同作用,使它們能夠以交錯的方式生成推理步驟和特定于任務的操作。

ReAct如何工作的

ReAct提示大型語言模型為給定任務生成口頭推理曆史步驟和操作。這些提示由少量的上下文示例組成,這些示例指導模型的思考和操作生成。下面的圖中給出了一個上下文示例。這些例子引導代理經曆一個循環過程:産生一個想法,采取一個行動,然後觀察行動的結果。通過結合推理跟蹤和操作,ReAct允許模型執行動态推理,這樣可以生成進階計劃,還可以與外部環境互動以收集額外的資訊。

ReAct:在語言模型中結合推理和行為,實作更智能的AI

應用及結果

研究人員将ReAct應用于多種語言推理和決策任務,包括問題回答、事實驗證、基于文本的遊戲和網頁導航。結果是非常好的,ReAct在可解釋性和可信賴性方面始終優于其他最先進的基線。

在問答和事實驗證任務中,ReAct通過與簡單的Wikipedia API互動,克服了推理中普遍存在的幻覺和錯誤傳播問題。它生成了類似人類的解決任務的步驟,比沒有推理痕迹的基線更容易解釋。在互動式決策基準中,ReAct的表現明顯優于模仿和強化學習方法,即使隻有一兩個上下文示例。

雖然推理、行動和觀察步驟交織在一起提高了ReAct的接地性和可信度,但這種結構也限制降低了其制定推理步驟的靈活性,導緻在某些任務上的推理錯誤率高于思維鍊提示。

推理和行動的重要性

研究人員還進行了消融實驗,了解在不同任務中推理和行動的重要性。他們發現,ReAct的内部推理和外部行為的結合始終優于專注于推理或單獨行動的基線。這突出了整合這兩個過程的價值,以獲得更有效的決策。

未來的發展方向

雖然ReAct已經顯示出很好的結果,但仍有改進的空間。研究人員建議擴大ReAct的規模,以訓練和操作更多的任務,并将其與強化學習等互補範例結合起來。此外還可以使用更多的人工注釋資料對模型進行微調可以進一步提高它們的性能。

結論

ReAct在開發更智能、更通用的AI系統方面向前邁進了一步,并且它也支援Langchain庫中一些非常有用的代理功能。通過在語言模型中結合推理和行為,已經證明了在一系列任務中的性能提高,以及增強的可解釋性和可信度。随着人工智能的不斷發展,推理和行為的整合将在創造更有能力和适應性的人工智能系統方面發揮關鍵作用。

論文位址:

Yao, S., et al. (2022). ReAct: Synergizing Reasoning and Acting in Language Models.

https://arxiv.org/abs/2210.03629

繼續閱讀