編輯:好困 Aeneas
【新智元導讀】最近,來自Google DeepMind,普林斯頓和斯坦福的頂尖華人團隊提出了一種全新的架構。現在,LLM可以像人類一樣制作自己的工具了!
ChatGPT等大語言模型誕生以來,憑着強大的語言了解能力、生成能力、邏輯推理能力等,已經被人類玩出了花。
而OpenAI公開GPT-4後,最大的驚喜之一,莫過于插件模式的引入了。
插件使得GPT-4可以執行代碼、搜尋引擎、內建各種APP的功能。這無疑是對于LLM後續應用模式的一大突破。
顯然,通過工具的使用,我們可以顯著地提升LLM的生産力,
但是,如果沒有合适的工具怎麼辦?
——那就讓LLM自己造!
最近,來自Google DeepMind,普林斯頓和斯坦福的華人團隊提出了一種閉環架構,讓LLM可以通過程式的形式,制作并使用全新的工具(能重複使用的那種)。
簡單來說,就是讓一個LLM作為工具制造者制作新工具,另一個LLM作為工具使用者,使用工具來解決新問題。
論文位址:https://arxiv.org/abs/2305.17126
項目位址:https://github.com/ctlllll/LLM-ToolMaker
基于這個架構,LLM就變得像人類的祖先一樣,能夠自我開發,并且學會使用工具。
同時,這種工具制造者和使用者之間的分工,在不降低生成工具和解決方案品質的情況下,就能實作成本效益。
結果顯示,當使用GPT-4作為工具制造者,GPT-3.5 Turbo作為工具使用者時,可以在成本低、速度快的GPT-3.5 Turbo上實作與GPT-4相當的性能。
讓LLM自己造工具
雖然LLM很好用,但如果問題太多的話,直接丢給GPT-4這種性能很強的模型,成本會非常高。
另一方面,輕量級模型在成本效益上很高,但通常在處理複雜任務時遇到困難。
LATM通過利用強大的模型作為工具制造者,為請求中觀察到的任務生成可重複使用的工具(以Python函數實作),并将工具傳遞給一個成本效益高的工具使用者模型,用于解決後續請求中的類似執行個體。
這種方法使得輕量級模型在保持更高的成本效率的同時,能夠達到與強大模型相當的性能。
LATM的閉環架構
LATM可以分為兩個階段:
1. 制造工具:一個強大但更昂貴的模型作為工具制造者,從一些示例中生成通用且可重複使用的工具;
2. 使用工具:一個輕量且更便宜的模型作為工具使用者,使用工具來解決任務的各種執行個體。
制造工具階段可以進一步劃分為三個子階段:
(1)工具提議:工具制造者試圖從一些訓練示例中生成工具(Python函數),如果工具無法執行,報告錯誤并生成新的(修複函數中的問題);
(2)工具驗證:工具制造者在驗證樣本上運作單元測試,如果工具沒有通過測試,報告錯誤并生成新的測試(修複單元測試中函數調用的問題);
(3)工具封裝:封裝函數代碼和如何從單元測試中将問題轉換為函數調用的示例,為工具使用者準備可用的工具。
LATM的流程
在現實世界的場景中,任務執行個體通常都是按順序來的。為了适應這種資料流,團隊引入了第三個LLM——分派器。
具體來說,當收到一個新的任務執行個體時,分派器首先确定是否有适合目前任務的工具。
· 如果存在合适的工具,分派器将執行個體及其相應的工具傳遞給工具使用者進行任務解決。
· 如果沒有找到合适的工具,分派器将該執行個體識别為新任務,并使用強大的模型甚至調用人類标注者來解決該執行個體。
鑒于分派任務的簡單性,分派器可以是一個配備了适當提示的輕量級模型,這隻會為整個流程增加很小的成本。
結果顯示,分派器可以有效地識别現有的工具,而且對于沒有見過的任務也不會有顯著的性能下降。
分派器的工作流程
在下面這個任務示例中,需要根據給定的幾個條件确定五個對象的順序。
在工具提議階段,工具制造者(如GPT-4)會寫一個通用的Python函數,能夠解決任務中提供的k個示例(實驗中k=3)。
然後,工具制造者會生成一個搜尋算法,枚舉所有可能的排序,并根據給定的條件進行驗證
在工具使用階段,工具使用者将每個自然語言問題轉化為一系列條件,生成函數調用,利用工具解決每個任務執行個體。
工具提議和工具使用階段(邏輯推理任務)
結果顯示,不管是由人類編寫還是由GPT-4生成,CoT在任務完成的準确率上,都會被LATM吊打。
使用GPT-4生成的CoT的準确性
如表1所示,當被用作工具制造者時,GPT-4會搜尋所有排列組合,并選出滿足給定限制條件的,最終成功解決任務。
而且,工具制造者即便是接收到了錯誤的資訊,也依然有能力進行糾正。
工具制造者為解決任務而生成的函數
在表2中,團隊将思維鍊提示方法和LATM的性能進行了比較。
結果顯示,有了工具的幫助,像GPT-3.5 Turbo這樣的輕量級模型可以實作與GPT-4相當的性能,并顯著優于CoT提示。
而且,能夠利用工具的GPT-3.5 Turbo在平均成本上,也比直接用GPT-4低得多。
有趣的是,對于Dyck語言任務,作為工具使用者的GPT-3.5 Turbo,甚至甚至超過了同樣作為使用者的GPT-4。
在研究錯誤的案例時,團隊發現,在将問題轉化為函數調用時,GPT-4有時會自發地去「解決」問題。然而,這是完全不必要的,而且還會導緻函數輸出錯誤。
LATM和思維鍊(CoT)的性能比較
此外,在所有的模型中,GPT-3.5 Turbo也有着最佳的成本效益。
各種工具使用者模型的性能比較
不過,雖然GPT-3.5 Turbo在作為使用者時表現出色,但它并不能很好地扮演工具制造者的角色。
結果顯示,對于像邏輯推理這樣比較困難的任務,GPT-3.5 Turbo一次都沒成功。
也就是說,使用一個強大的模型作為工具的制造者,是很有必要的。
GPT-4和GPT-3.5 Turbo在生成新工具時的成功率
LATM Prompt
工具制造
工具驗證
工具封裝
分派器
封裝工具
邏輯推理
查找随機對象
Dyck語言
單詞排序
餘數定理
安排會議
作者介紹
論文一作Tianle Cai(蔡天樂),是普林斯頓大學的一年級博士生。
在此之前,他就讀于北京大學,主修應用數學,同時兼修計算機科學。
他的興趣非常廣泛,橫跨機器學習的很堵領域。比如,優化,表征學習,架構設計(Transformer,圖神經網絡等)。宗旨就是,讓機器學習更通用,更高效,更可靠。
Xuezhi Wang是谷歌大腦的研究科學家。
在此之前,她于2016年在卡耐基梅隆大學計算機科學系獲得博士學位,于2011年在清華大學取得計算機科學學士學位。
她的主要興趣是NLP模型的魯棒性和公平性,以及在語言模型中實作系統化的泛化。
Tengyu Ma(馬騰宇)是斯坦福大學計算機科學和統計學的助理教授。
他的研究興趣廣泛,包括機器學習、算法及其理論方面的課題,如深度學習、(深度)強化學習、預訓練/基礎模型、魯棒性、非凸優化、分布式優化和高維統計。
Xinyun Chen(陳昕昀)是谷歌大腦的進階研究科學家。
在此之前,她于2022年在加州大學伯克利分校獲得計算機科學博士學位,并在上海交通大學ACM班獲得計算機科學學士學位。
她的研究興趣是神經程式合成和對抗性機器學習。
Denny Zhou是谷歌大腦和DeepMind推理團隊的創始人和負責人。
研究方向是通過建立和教授大型語言模型(LLMs)來解決人工通用智能(AGI)問題,實作人類水準的推理。
研究突破包括:指令調整(FLAN2)、思維鍊提示、自洽性解碼、最小到最大提示,以及LLMs的湧現特性。
值得一提的是,谷歌首席執行官Sundar Pichai在2022年谷歌I/O大會上介紹了他們的工作。
參考資料:
https://arxiv.org/abs/2305.17126