天天看點

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

作者:資料派THU
你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線
來源:機器之心本文約2200字,建議閱讀5分鐘各位表格大師終于可以跟那些繁瑣的手動操作說再見了!近日,一款名叫 SheetCopilot 的智能體橫空出世,讓每個人隻需要發号施令就可實作流暢的表格操控。           

這種絲滑的操作流程簡直是職場人的福音!

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

近日,來自中科院自動化所、港理工等機構的研究者們造出了一個「表格 AI 助手」SheetCopilot,該智能體能根據使用者指令生成操縱表格的解決方案并在特定軟體(如:Excel、GoogleSheets 等)上執行。SheetCopilot 可以快速連接配接多款表格處理軟體,且支援多表操作、圖表繪制和資料透視表生成,有望賦能多個領域的表格資料處理和可視化,并向實作通才智能助手邁出關鍵一步。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

網站:https://sheetcopilot-demo.github.io/

論文:https://arxiv.org/abs/2305.19308

讓我們首先通過以下示例來感受 SheetCopilot 如何顯著提升工作效率。

假如你是一個剛入職小白,有一天老闆要求你幫他分析銷售資料。你拿到表格一看,上千行的資料眼花缭亂,一時不知從何下手,于是你邊查邊做。

首先,你嘗試采用把各 Product 名稱提取出來,然後用公式對各 Product 的收入求和。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

搞了二十多分鐘,SUMIF 一直報”#NAME?”的錯誤,遂放棄。

繼續上網搜尋,發現還有資料透視表(Pivot table)這麼友善的工具,于是開始第二次挑戰。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

又花了二十多分鐘,終于搞定。整個過程将近一個小時,效率不如人意。以後每次老闆交個你新的表格處理任務,你之前的經驗派不上用場,又得從頭開始邊查網站邊做: (。

你的同僚則使用 SheetCopilot,伸個懶腰的工夫就把各種奇怪的要求都完成了: )。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

看到 SheetCopilot 如此絲滑,你也簡單嘗試了一下,畫個圖不在話下。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

有了 SheetCopilot,你再也不用把滑鼠滑過半張桌子的距離來選中超出螢幕的資料了,輕松讓上千行資料在多張表之間輾轉騰挪。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

為什麼提出 SheetCopilot

長久以來,人們一直渴望擁有即使沒有專業經驗也能熟練掌握複雜軟體的能力。許多人都曾遇到過這樣的情況:不知如何操作 PhotoShop 的繁瑣界面,想要分析資料卻不知道資料透視表這一進階功能,想要繪制齒輪卻對 Solidworks 一無所知。

随着具有強大語言了解和生成能力的大型語言模型(LLM)的出現,這個願景比以往任何時候都更接近現實。如果能夠引導 LLM 掌握各種軟體,就能夠釋放出 LLM 幾乎無限的潛能,進而讓人類的生産力達到前所未有的高度。

這篇文章指出電子表格(Spreadsheet)是進行這項研究的理想基礎,因為它是一種常見的多功能生産工具。然而,表格操控面臨着多樣化的挑戰,使用者難以掌握足夠的表格處理和程式設計技巧以應對變化多端的任務需求。

如果有一種通才 AI 智能體,它掌握豐富的軟體操控技能,那麼不僅辦公效率能得到極大提升,企業産出也會大大加快。SheetCopilot 的出現正好契合了人們這樣的遠景。

SheetCopilot 有哪些亮點

1. 覆寫表格處理的典型需求

SheetCopilot 涵蓋了表格操作的幾乎所有典型任務,可以出色地完成各式圖表生成任務。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

銷售資料分析

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

實驗圖表繪制

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

複雜公式計算

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

應用條件格式

2. 超越基于 VBA 的方法

SheetCopilot 優于用GPT-3.5 生成 VBA 代碼并執行的方法,生成的解決方案的顯著優于後者(見下圖),這使得 SheetCopilot 有望成為資料處理人員未來強大的 AI 輔助工具。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

不僅如此,相比于晦澀的 VBA 代碼,SheetCopilot生成的解決方案包含通俗易懂的步驟,這免去了學習新程式設計語言并艱難調試的痛苦。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

左圖:冗長的 VBA 代碼;右圖:SheetCopilot簡單易懂的解決方案。

3. 舒适的使用體驗

SheetCopilot 在網絡連接配接穩定的情況下,僅需約 10 步多表組合操作,即可在上千行數十列的表格中快速完成任務。這不僅解放了使用者疲憊的雙眼,還節省了查找網站并逐個嘗試操作步驟所浪費的時間,同時也避免了學習 VBA 的成本。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

方法原理

這篇文章将表格操控所需的核心功能抽象為一組虛拟 API(稱為原子操作,見下圖),用于生成解決方案,作為 LLM 與應用軟體之間互動的橋梁。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

最簡單的方法是對 LLM 的一次查詢(query)生成一個任務的所有步驟。然而,随着任務複雜度的增加,後序步驟更加依賴前序步驟的執行結果,導緻這種開環控制難以得到正确結果。例如,如果無法确定篩選後可見資料的位置,LLM 就難以确定操作範圍。

為了實作高效的閉環控制,SheetCopilot 根據軟體狀态回報和外置原子操作知識庫優化解決方案,提升了成功率和效率。

如何評測

該文提出了一個高品質評測基準。該基準的任務具有多樣化的表述,并涉及豐富的原子操作,如下面詞雲所示:

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

此基準采用了如下有關成功率的名額(越高越好):

  • Exec@1:生成的任務解決方案的執行成功率。
  • Pass@1:任務通過率,即執行後能比對上任意參考答案的解決方案的占比。

此基準還考慮如下效率名額(越低越好):

  • A50:将符合任務要求的解決方案的步數除以參考答案最少步數,然後對所有計算結果取中位數。
  • A90:計算方式同上,但取所有計算結果的 90 分位數。該名額反映動作數的極值分布。

實驗結果

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

表 1:在 SheetCopilot 資料集上對比 GPT-3.5-Turbo、GPT-4、Claude 以及生成 VBA 的方法。

不出意料,GPT-4 符合任務要求的解決方案占比最高且效率最優,而 GPT-3.5-Turbo 則緊随其後,Claude 最次但也接近 GPT-3.5-Turbo。

一個值得關注的結果是,與将使用者指令翻譯成 VBA 代碼并在 Excel 上執行的方法對比,SheetCopilot 取得了非常出色的成功率。這意味着 SheetCopilot 讓軟體智能控制離我們又近了一大步,讓不會程式設計的使用者能以日常交流的方式指揮計算機完成繁雜的工作。

我們再通過下面各個細分類别上的名額來看一看這三個 LLM 各自的優缺點。

你隻管提需求,大模型解決問題:圖表處理神器SheetCopilot上線

GPT-3.5 和 GPT-4 輕而易舉地解決了 Management(排序、篩選等表格管理操作)和 Entry & manipulation(資料輸入與操縱)這兩類任務,均取得了 100% 可執行率。此外,三個 LLM 在不同任務類别中各自表現出最佳效率,這一有趣的發現表明每個 LLM 都有其獨特的優勢,GPT-4 也難以完勝其它模型。

結語

SheetCopilot 借助 LLM成功地将感覺、推理和決策通過文字接口構成了一個閉環,實作高效的電子表格操控,促進智能軟體控制更上一層樓,也為對通才智能體感興趣的研究者帶來了新的靈感。

繼續閱讀