編輯：好困 Aeneas

【新智元導讀】最近，來自Google DeepMind，普林斯頓和斯坦福的頂尖華人團隊提出了一種全新的架構。現在，LLM可以像人類一樣制作自己的工具了！

ChatGPT等大語言模型誕生以來，憑着強大的語言了解能力、生成能力、邏輯推理能力等，已經被人類玩出了花。

而OpenAI公開GPT-4後，最大的驚喜之一，莫過于插件模式的引入了。

插件使得GPT-4可以執行代碼、搜尋引擎、內建各種APP的功能。這無疑是對于LLM後續應用模式的一大突破。

GPT-3.5逆襲GPT-4！DeepMind華人天團，讓LLM像人類一樣制作工具

顯然，通過工具的使用，我們可以顯著地提升LLM的生産力，

但是，如果沒有合适的工具怎麼辦？

——那就讓LLM自己造！

最近，來自Google DeepMind，普林斯頓和斯坦福的華人團隊提出了一種閉環架構，讓LLM可以通過程式的形式，制作并使用全新的工具（能重複使用的那種）。

簡單來說，就是讓一個LLM作為工具制造者制作新工具，另一個LLM作為工具使用者，使用工具來解決新問題。

論文位址：https://arxiv.org/abs/2305.17126

項目位址：https://github.com/ctlllll/LLM-ToolMaker

基于這個架構，LLM就變得像人類的祖先一樣，能夠自我開發，并且學會使用工具。

同時，這種工具制造者和使用者之間的分工，在不降低生成工具和解決方案品質的情況下，就能實作成本效益。

結果顯示，當使用GPT-4作為工具制造者，GPT-3.5 Turbo作為工具使用者時，可以在成本低、速度快的GPT-3.5 Turbo上實作與GPT-4相當的性能。

讓LLM自己造工具

雖然LLM很好用，但如果問題太多的話，直接丢給GPT-4這種性能很強的模型，成本會非常高。

另一方面，輕量級模型在成本效益上很高，但通常在處理複雜任務時遇到困難。

LATM通過利用強大的模型作為工具制造者，為請求中觀察到的任務生成可重複使用的工具（以Python函數實作），并将工具傳遞給一個成本效益高的工具使用者模型，用于解決後續請求中的類似執行個體。

這種方法使得輕量級模型在保持更高的成本效率的同時，能夠達到與強大模型相當的性能。

LATM的閉環架構

LATM可以分為兩個階段：

1. 制造工具：一個強大但更昂貴的模型作為工具制造者，從一些示例中生成通用且可重複使用的工具；

2. 使用工具：一個輕量且更便宜的模型作為工具使用者，使用工具來解決任務的各種執行個體。

制造工具階段可以進一步劃分為三個子階段：

（1）工具提議：工具制造者試圖從一些訓練示例中生成工具（Python函數），如果工具無法執行，報告錯誤并生成新的（修複函數中的問題）；

（2）工具驗證：工具制造者在驗證樣本上運作單元測試，如果工具沒有通過測試，報告錯誤并生成新的測試（修複單元測試中函數調用的問題）；

（3）工具封裝：封裝函數代碼和如何從單元測試中将問題轉換為函數調用的示例，為工具使用者準備可用的工具。

LATM的流程

在現實世界的場景中，任務執行個體通常都是按順序來的。為了适應這種資料流，團隊引入了第三個LLM——分派器。

具體來說，當收到一個新的任務執行個體時，分派器首先确定是否有适合目前任務的工具。

· 如果存在合适的工具，分派器将執行個體及其相應的工具傳遞給工具使用者進行任務解決。

· 如果沒有找到合适的工具，分派器将該執行個體識别為新任務，并使用強大的模型甚至調用人類标注者來解決該執行個體。

鑒于分派任務的簡單性，分派器可以是一個配備了适當提示的輕量級模型，這隻會為整個流程增加很小的成本。

結果顯示，分派器可以有效地識别現有的工具，而且對于沒有見過的任務也不會有顯著的性能下降。

分派器的工作流程

在下面這個任務示例中，需要根據給定的幾個條件确定五個對象的順序。

在工具提議階段，工具制造者（如GPT-4）會寫一個通用的Python函數，能夠解決任務中提供的k個示例（實驗中k=3）。

然後，工具制造者會生成一個搜尋算法，枚舉所有可能的排序，并根據給定的條件進行驗證

在工具使用階段，工具使用者将每個自然語言問題轉化為一系列條件，生成函數調用，利用工具解決每個任務執行個體。

工具提議和工具使用階段（邏輯推理任務）

結果顯示，不管是由人類編寫還是由GPT-4生成，CoT在任務完成的準确率上，都會被LATM吊打。

使用GPT-4生成的CoT的準确性

如表1所示，當被用作工具制造者時，GPT-4會搜尋所有排列組合，并選出滿足給定限制條件的，最終成功解決任務。

而且，工具制造者即便是接收到了錯誤的資訊，也依然有能力進行糾正。

工具制造者為解決任務而生成的函數

在表2中，團隊将思維鍊提示方法和LATM的性能進行了比較。

結果顯示，有了工具的幫助，像GPT-3.5 Turbo這樣的輕量級模型可以實作與GPT-4相當的性能，并顯著優于CoT提示。

而且，能夠利用工具的GPT-3.5 Turbo在平均成本上，也比直接用GPT-4低得多。

有趣的是，對于Dyck語言任務，作為工具使用者的GPT-3.5 Turbo，甚至甚至超過了同樣作為使用者的GPT-4。

在研究錯誤的案例時，團隊發現，在将問題轉化為函數調用時，GPT-4有時會自發地去「解決」問題。然而，這是完全不必要的，而且還會導緻函數輸出錯誤。

LATM和思維鍊（CoT）的性能比較

此外，在所有的模型中，GPT-3.5 Turbo也有着最佳的成本效益。

各種工具使用者模型的性能比較

不過，雖然GPT-3.5 Turbo在作為使用者時表現出色，但它并不能很好地扮演工具制造者的角色。

結果顯示，對于像邏輯推理這樣比較困難的任務，GPT-3.5 Turbo一次都沒成功。

也就是說，使用一個強大的模型作為工具的制造者，是很有必要的。

GPT-4和GPT-3.5 Turbo在生成新工具時的成功率

LATM Prompt

工具制造

工具驗證

工具封裝

分派器

封裝工具

邏輯推理

查找随機對象

Dyck語言

單詞排序

餘數定理

安排會議

作者介紹

論文一作Tianle Cai（蔡天樂），是普林斯頓大學的一年級博士生。

在此之前，他就讀于北京大學，主修應用數學，同時兼修計算機科學。

他的興趣非常廣泛，橫跨機器學習的很堵領域。比如，優化，表征學習，架構設計（Transformer，圖神經網絡等）。宗旨就是，讓機器學習更通用，更高效，更可靠。

Xuezhi Wang是谷歌大腦的研究科學家。

在此之前，她于2016年在卡耐基梅隆大學計算機科學系獲得博士學位，于2011年在清華大學取得計算機科學學士學位。

她的主要興趣是NLP模型的魯棒性和公平性，以及在語言模型中實作系統化的泛化。

Tengyu Ma（馬騰宇）是斯坦福大學計算機科學和統計學的助理教授。

他的研究興趣廣泛，包括機器學習、算法及其理論方面的課題，如深度學習、（深度）強化學習、預訓練/基礎模型、魯棒性、非凸優化、分布式優化和高維統計。

Xinyun Chen（陳昕昀）是谷歌大腦的進階研究科學家。

在此之前，她于2022年在加州大學伯克利分校獲得計算機科學博士學位，并在上海交通大學ACM班獲得計算機科學學士學位。

她的研究興趣是神經程式合成和對抗性機器學習。

Denny Zhou是谷歌大腦和DeepMind推理團隊的創始人和負責人。

研究方向是通過建立和教授大型語言模型（LLMs）來解決人工通用智能（AGI）問題，實作人類水準的推理。

研究突破包括：指令調整（FLAN2）、思維鍊提示、自洽性解碼、最小到最大提示，以及LLMs的湧現特性。

值得一提的是，谷歌首席執行官Sundar Pichai在2022年谷歌I/O大會上介紹了他們的工作。

參考資料：

https://arxiv.org/abs/2305.17126

GPT-3.5逆襲GPT-4！DeepMind華人天團，讓LLM像人類一樣制作工具

【新智元導讀】最近，來自Google DeepMind，普林斯頓和斯坦福的頂尖華人團隊提出了一種全新的架構。現在，LLM可以像人類一樣制作自己的工具了！

繼續閱讀

手機怎麼拍2寸證件照？試試這些證件照制作工具

圖示制作工具，小白也可以輕松上手FreeIconTool，一款圖示制作和提取工具，可以從各種exe、dll等檔案中提取圖

機器人ChatGPT來了：大模型進現實世界，DeepMind重量級突破

不隻是AlphaGo，谷歌DeepMind到底是何方神聖？

深度學習之google deepmind的alphago AI人工智能算法技術演變曆程一、簡介二、Q-learning與Reinforcement learning三、deep Q-Networks(DQN)四、alphago

8. 2020年《DeepMind＆UCL深度學習講座》第8講：深度學習中的注意力和記憶【中文字幕】

7. 2020年《DeepMind＆UCL深度學習講座》第7講：自然語言處理【中文字幕】

9. 2020年《DeepMind＆UCL深度學習講座》第9講：生成對抗網絡GAN【中文字幕】

政策梯度

谷歌新AI阿法星，C位出道爆錘人類職業遊戲玩家！

深度學習資料整理--有用的網站

deepmind dnc 是幹什麼的下面是轉載的介紹文章

DeepMind 釋出 VQVAE-2，圖檔生成效果超越 BigGAN

3. 2020年《DeepMind＆UCL深度學習講座》第3講：卷積神經網絡的圖像識别【中文字幕】

deepmind dnc 相關的軟體下載下傳資源

在做自媒體的五年裡，我用過的工具不下一百種。雖然說工具用得好可以事半功倍，但是對于剛入門的新手來說，簡單易用才是最重要的