天天看點

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

作者:量子位

編輯部 整理自 MEET2024

量子位 | 公衆号 QbitAI

“一個法律案件的事實是否清晰,與法條之間的關系如何判定,全部都在講求邏輯。”

在MEET2024智能未來大會現場,面壁智能聯合創始人、CEO李大海談到大模型在法律行業的落地時強調了邏輯推理能力的重要性。

他認為,AGI革命是與蒸汽革命、電力革命和資訊革命并列的第四次技術變革,而作為這場變革的核心技術路線,大模型能夠真正落地應用到生産環節中,最重要的就是邏輯推理能力。

作為國内最早做大模型的團隊,面壁智能在模型訓練的過程中,針對邏輯推理做了非常多細緻工作,将其拆分成包括歸納、演繹、時間、空間等多個次元,并專門攻克,逐一提升。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

據介紹,面壁智能的千億多模态大模型CPM-Cricket可以對标GPT-3.5的水準,同時邏輯推理能力十分突出。在公考行測的邏輯推理試題測試中,CPM的總正确率達到63.76%,甚至超過GPT-4的61.88%。

然而,随着各行業和企業都看到了大模型的應用前景和價值,如何才能發揮出大模型的更大潛力,并推動生産力的發展和變革?

李大海給出的答案是“大模型+Agent”。

他将大模型比做汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉向系統,需要汽車底盤,以及包括内飾等所有其他元件,才能真正給使用者提供一台完整的汽車産品。

李大海認為,在大模型這個引擎的基礎上還需要疊加一系列上層技術,包括記憶能力、使用工具等,進而帶來更多廣泛的應用和想象空間,而AI Agent(智能體)就是這一系列技術能力的載體。

為了完整展現李大海在“大模型+Agent”賽道的思考,量子位在不改變原意的基礎上,對他的演講内容進行了編輯整理。

關于MEET智能未來大會:MEET大會是由量子位主辦的智能科技領域頂級商業峰會,緻力于探讨前沿科技技術的落地與行業應用。今年共有數十家主流媒體及直播平台報道直播了MEET2024大會,吸引了超過300萬行業使用者線上參會,全網總曝光量累積超過2000萬。

演講要點

  • 大模型要能夠真正用在生産環境裡,最重要的就是邏輯推理能力
  • 大模型是一個新的技術革命,可以跟工業革命、電力革命、資訊革命相提并論
  • 大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出
  • 大模型帶來的最根本變化是人和機器關系的變化,二者在未來将變得更平等
  • 未來世界将是由智能體連接配接的Internet of Agents的世界

(以下為李大海演講分享全文)

大模型要以邏輯推理為核心能力

面壁智能是從清華大學THUNLP實驗室孵化出來的大模型公司,在公司正式成立之前,我們的團隊就開始深耕大模型領域。與此同時,我們還發起了OpenBMB的開源社群,在這個社群裡面做了很多大模型的開源技術和工具。

聯合清華大學和OpenBMB開源社群,我們建構了一個“一體兩翼”的産學研用大模型生态。

面壁智能是國内最早做大模型的團隊,全球第一個中文預訓練大模型就是我們的團隊在2020年12月推出的,叫做CPM-1。2023年11月,我們釋出了最新的千億多模态大模型CPM-Cricket,可以對标GPT-3.5的水準。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

面壁智能的模型核心能力在于邏輯推理。

從成立之初,我們就認識到大模型能夠真正落地應用到生産環境裡,最重要的就是邏輯推理能力。是以我們在做模型訓練的過程中,針對邏輯推理做了非常多細緻的工作,将其拆分成包括歸納、演繹、時間、空間等多個次元,并專門攻克,逐一提升。

為了測試模型在真實場景中的邏輯推理表現,我們給大模型模拟了過去三年的公考行測試題,結果顯示CPM的總正确率達到63.76%,甚至超過GPT-4的61.88%。在英文的GMAT測試中,面壁智能大模型的分數是GPT-4的93%,已經非常趨近,個别題型甚至超過GPT-4。

最近,我們在與法律行業客戶的合作中可以看到,應用場景非常關注和依賴模型的邏輯推理能力。案件的事實是否清晰,事實與法律條款之間的關系如何判定,全部都是在講邏輯。經過行業客戶的評估,面壁智能的大模型邏輯推理表現最為突出,恰恰符合客戶的實際需求。

到了今天,我相信大模型的技術路線在整個産業界已形成共識,但大家一定還是會思考,大模型帶來的到底是一個像web3這樣的技術浪潮,還是十年為期的産業變革。

我認為,以大模型為核心的AGI革命是第四次重大技術變革,它可以和蒸汽革命、電力革命、資訊革命相提并論,并将至少持續20-30年的時間。若幹年後,整個人類社會的生産和生活将會因為AGI革命的演進而發生翻天覆地的變化。

“大模型+Agent”創造更多想象空間

大模型就像是汽車的引擎,為汽車提供動力。但如果想要把汽車造出來,還需要轉向系統,需要汽車底盤,以及包括内飾等所有其他元件,才能真正給使用者提供一台完整的汽車産品。

是以,在大模型這個引擎的基礎上還需要疊加一系列上層技術,包括記憶能力、使用工具等,進而帶來更多廣泛的應用和想象空間,而AI Agent就是這一系列技術能力的載體。

智能體具有人設、智商、情商、感覺力、價值觀和成長性六個次元的典型特征,進而适應各種應用場景。同時,為了讓單個智能體發揮更強大的能力,還需要把它們連接配接和協同起來,去處理和完成更複雜的任務。

實際上,無論人類社會還是自然界中都有群體智能的典型案例。如同我們需要團隊群組織把個人集結起來,自然界中的蜂群、蟻群、魚群也表現出比單體更進階的智能表現。

基于這些思考,面壁智能自2023年6月起就開始布局“大模型+Agent”的技術路線和落地方向,并在過去的幾個月裡,釋出了一系列基于大模型驅動的AI Agent智能體應用架構,我們稱之為面壁智能的“AI Agent三駕馬車”。

第一,是AgentVerse智能體通用平台。

它建構了一個豐富的虛拟空間,其中定義了衆多智能體專家,具有不同人設和專業能力。

當使用者提出需求後,智能體專家們立即啟動組隊流程。這是一個政策性的招募過程,旨在确定哪些專家應當投入特定任務。這些專家組成團隊後,開始互相協商任務細節,明确分工。協商完畢便轉入執行階段,每個Agent依據其角色完成相應的工作,然後再進行整合。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

整個過程中還有一個政策規劃者,確定所有智能體的工作協同一緻,形成最終成果,并與使用者需求進行對照,若存在較大偏差,還可進行疊代改進。這個架構的通用性使我們能夠在其基礎上開展廣泛的工作。

第二,是XAgent超強智能體應用架構。

它是一個超級智能體,能夠針對複雜任務進行拆解,并基于動态訓示做任務分布執行。它扮演着智能體專家的角色,根據人的需求做規劃,完成使用者提出的目标。

在這個規劃的基礎上,如果使用者輸入的資訊不夠多,它會與使用者互動,收集必要資訊。

在做完規劃後每一步執行的時候,XAgent還會評估執行完每個步驟後是否需要做額外更多的工作,整個過程是一個動态的結構。在基準測試中,XAgent的能力已經全面超越AuotGPT。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

舉個例子,當你向XAgent發出指令“我周末有朋友到訪,請為我推薦幾個餐廳”,這個超強智能體不會立刻列出一長串餐廳,相反,它會首先探詢你的偏好,詢問你是否偏愛安靜的環境或是特定類型的飲食,以此來了解你的需求。

它的第一步是與你互動,而不是立即執行任務;接着,基于你的回複進行餐廳搜尋;然後,整理搜尋結果,并提出幾個帶有優缺點分析的方案。方案準備就緒後,它會以可視化的形式呈現,供你選擇。一旦你做出選擇,它便會通過連接配接API直接為你預訂餐廳。

這不同于我們通常所熟悉的單步問答模式,它展現了智能體提供的一種更優質的體驗。

第三,是ChatDev多智能體協作開發架構。

它可以幫助我們建構一個虛拟的AI軟體公司,設定CEO、CTO、産品經理、程式員、設計師等不同角色的智能體,并通過一條稱為“對話鍊”的交流網絡連接配接它們。

這些角色的互動流程與軟體開發中的瀑布模型相契合,包括軟體設計、系統測試和文檔編制等環節。

我們讓這些AI智能體按照明确的分工協作,并通過自然語言進行交流和互動,平均最快不到3分鐘,平均小于3塊錢成本,“不到一杯可樂的時間和錢”就可以完成一個簡單的軟體開發。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

在這個工作裡,我們還做了一個叫HAI(Human-Agent-Interaction)的功能,讓人跟Agent通過自然語言進行互動,通過這種方式也能讓智能體得到足夠的資料回報,讓他們的工作做得更好,這是我們在剛剛說的在智能體成長性上的一個探索。

短短兩個多月的時間,ChatDev在GitHub上的星标數量激增,超過1.8萬,連續多日位居Trending排行榜首。

大模型和Agent之間的耦合性非常重要

面壁智能需要同時把大模型和Agent兩件事都做好——

因為大模型是底層引擎,想要做好Agent就需要引擎提供強勁的動力輸出。

實際應用中,發現Agent在哪些方向可能工作得還不夠好,就需要在底層能夠有實時的回報,能夠及時進行修改和優化。如果完全依賴外部大模型會有很多限制,二者之間的耦合性是非常重要的。

目前,我們在“大模型+Agent”這條技術路線上已經有很多場景正在落地。

在金融場景,面壁智能和國内頭部銀行客戶進行了深入合作,通過大模型為客戶的“智能财富助理”産品提供強大的語言對話能力和邏輯推理能力,解答使用者在金融理财等業務咨詢中的專業問題。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

在法律場景,面壁智能打造法律大模型,結合Agent技術為法務人員提供得力助手,針對案件關鍵點提取、事實點厘清、法律條款梳理等進行輔助工作,進而極大縮短案件處理的時間,提升效率。

國内每年大概有3000萬左右的案件,但是基層法務人員數量非常有限。經過訪談,我們發現平均每個基層法務人員每天要處理3-4個案子,但這裡面包含了很多複雜案件,處理時間會非常長,一個案件需要訴訟可能會排到三、四個月後。這種情況下需要有法律大模型更好地去幫助法務部門大幅提升案件處理的效率。

大模型帶來的最根本變化是“人與機器之間關系的變化”。它讓機器能夠像人一樣通過自然語言的方式進行互動,并能夠進行邏輯思考,處理複雜任務。

大模型的出現将會使機器與人的關系變得更加平等,每個人都可以擁有一個AI的夥伴,“大模型+Agent”則能夠幫助人們打造更貼心、更懂你的生活智能夥伴。

我們相信,未來的世界将是一個由智能體連結的世界,也就是面壁智能所提出的“Internet of Agents”新時代。

大模型應用,最重要的是邏輯推理能力|面壁智能李大海@MEET2024

大模型是第四次技術革命。每一次技術變革都需要花非常長的時間:第一次工業革命花了上百年,資訊革命花了大約50多年,我相信AGI革命的時間也不會短。

2023隻是第一年,相信還有很多問題需要解決和突破,包括任務的規劃、多模态、更進階的認知以及更小的模型等等。

希望行業裡的所有夥伴一起來把這些問題攻克和解決,讓整個社會和人們的生活變得更好。

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀