天天看點

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

作者:新智元

編輯:編輯部

【新智元導讀】日日新·商量大模型5.0最近的一波更新,已經震驚到國外科技圈了!實測之後,我們發現:它的推理、數學能力又有了螺旋式上升。周冠宇最近三年比賽的情況、你不知道的F1冷知識,AI資料庫都讓你所見即所得。

中國的大模型,已經震驚了外國科技圈。

這不,這幾天商量大模型的更新,直接讓外國網友驚呼:太瘋狂了,中國的AI界究竟還有多少我們不知道的巨變?

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

不怪這些網友太大驚小怪——最近全新更新的日日新·商量大模型5.0(SenseChat V5),在基礎能力上再次重大更新,直接把大模型能力更新到新的階段,直覺印象可感的那種。

簡單來就是,這款擁有強大邏輯推理能力的6000億參數MoE模型,可以輕松地把你變成一個更好的打勞工。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬
GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

打工神器Part 1:辦公小浣熊

是以說了這麼多,得到日日新5.0加持的産品,到底會有怎樣非一般的體驗?

首先,我們來看看最直擊打勞工痛點的「辦公小浣熊」。

顧名思義,它主打的就是一個辦公能力。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

體驗位址:https://raccoon.sensetime.com/office

衆所周知,在真實的辦公場景中,往往會有很多極其複雜的圖表,就連我們人類自己看到都會暈頭轉向。

更何況還有不少資料隻有外文的,更是增加了閱讀障礙。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

辦公小浣熊可以hold住嗎?

前兩天,F1中國大獎賽剛剛落幕,而作為索伯技術合作方的商湯,更是提供了一些資料。

而我們也借此直接上了點難度:導入一份擁有60萬條資料的「全英文」表格,涵蓋F1曆史各類資料資訊,讓它分析一下。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

毫不誇張地說,這項測試非常難!

要知道,這份資料體量非常龐大。而且資料庫中除了英文,還包含簡寫、劃線-等複雜的元素。

比如,「周冠宇」對應的是「guanyu-zhou」(甚至不是guanyu zhou),資訊模糊度比較高。

是以,對于模型來說,分析這樣的資料并非是一件易事。

而我們也對這次的挑戰,充滿期待。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

順便說一嘴,商湯從2022年周冠宇第一次登上F1賽場開始,連續三年都是車隊的技術合作夥伴

接下來,考驗真本事的時候到了,我們給辦公小浣熊下發任務:

給出周冠宇在2020-2024之間參與比賽數量的柱狀圖。

果不其然,在第一次嘗試時,辦公小浣熊無法從表中的英文名字「guanyu-zhou」比對到周冠宇。

是以,它會認為圖中沒有周冠宇的資訊。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

下一步就得上點「提示」技巧了。

在接下來互動中,和它說「肯定會有的,你再找找」。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

通過一步步的引導和互動,模型在我們的引導下學會了反思,然後成功地完成了任務!

可以看到,辦公小浣熊通過努力思考,完成了所給任務的資料分析,并給出了相應的Python代碼。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

而這個互動過程也告訴我們,如果給模型的資料表格并不比對、比較模糊,模型表現不盡如人意時,也不要放棄。通過互動,模型就很可能給我們驚喜,給出不一樣的資料互動體驗。

下面就是一個更難的任務,我們把F1曆史上所有車手、車隊、比賽、賽道、引擎制造商等等資訊,導入資料庫檔案中,這個資料量是非常龐大的。

然後問模型:F1當中總共有多少車手?可以交叉表格進行計算。

這個任務,同樣難度非常大,因為在所有字段中,沒有任何一個是中文的。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

最終,辦公小浣熊用模糊的比對,找到了相對應的資訊——901位車手,這個答案完全正确!

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

在大模型産品中,辦公小浣熊的這個表現,堪稱高手中的高手。

在這個過程中,模型正是通過互動模式疊代的邏輯,多次查詢了不同的表頭,最終給出了能讓我們了解的資訊。

再換一個問題,「有哪些車手獲得總冠軍?并按獲獎次數從高到低繪制柱狀圖」。

最終,模型整理出:獲得最多總冠軍的車手是漢密爾頓和舒馬赫。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

接下來,我們來看看它能不能從不同次元,統計出漢密爾頓和舒馬赫的獲獎情況。

辦公小浣熊畫了一個雷達圖,清晰呈現出兩人杆位數、圈數、領獎台數、勝利數等各次元的能力,漢密爾頓的次數還是略高于舒馬赫。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

在這個真實的資料應用場景中,通過互動方式對複雜表格實作了關聯,日日新5.0表現出的強大推理能力,令人印象着實深刻。

下面,再來一個同樣高難度的市場采購的案例。

上傳「2024年新增供應商相關資訊」文檔之後,要求它整合到一個表格中,并要求表頭以列出供應商分類、供應商名稱、産品名稱...列出。

辦公小浣熊立刻給出了一個完整、清晰的表格總結版。

甚至,它還可以為你生成一個可視化的柱狀圖,将IT類、固資類、營銷類、行政類費用直覺地呈現出來。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

包括熱力圖這類圖表生成,它也可以拿捏。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

此外,我們還可以一并上傳多個文檔,讓辦公小浣熊繼續完成要求的任務。

首先它給出了可查閱的代碼,最後生成了不同類别需要采購的資料表格,一看即明了。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

一通測試下來,小編的感慨就是:能用上如此高效的資料分析、總結辦公神器,真是每位打勞工的福音。

并且,它還是免費的!

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

打工神器Part 2:文檔大模型

另一個鮮明展現出日日新5.0能力的産品,就是商量-文檔大模型。

據說,除了表格資料分析外,在長文本處理這個場景下,模型的能力也是一絕。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

那我們就要來上難度了:丢給它一堆數學試卷,要求它從中找出一道解一進制一次方程的解答題。

很快,它不僅從「國小數學試卷」的第五部分找到了對應的題型,甚至還麻溜地給出了解題過程。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

我們還可以對它要求,再幫忙出一道類似的題目,但題型得是選擇題。

它不光給出了題幹,還順便給出了正确答案和解題步驟。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

再比如,上傳一份國小試卷,讓文檔大模型幫你以國小生的了解力,去分析其中的一道應用題。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

它可以像一位耐心的老師,指導學生做題一樣,從步驟1、2、3詳細地分析了缜密的解題過程,并給出了答案。

這樣的AI老師,有誰不愛?

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬
GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

然後,文檔大模型還可以是「出題機」,能給出一道類似的題目,可以充分鍛煉自己舉一反三的能力。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

你還可以将自己做完試題的結果,告訴它,讓它為你打分。

顯然,8.4 ÷ 0.4 = 2.1答案不正确,正解應該是21。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

就着這個文檔,你可以無限提問。

文檔大模型在題目幾乎糊在一塊兒的頁面中,不僅能準确識别你想要的題目,還能悉心給出解答。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬
GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

給它上傳一份唐詩三百首和宋詞三百首,我們就可以根據這些檔案提問了!

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

比如,找出描寫月亮的詩詞。

它迅速找出了《靜夜思》《望月懷遠》《水調歌頭.丙辰中秋》等作品。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

下面,我們還可以來一個拔高性的提問:月亮在唐詩和宋詞中的内涵有哪些異同點?

它回答道:相同點在于都是情感寄托、時光流轉的象征和美的象征,不同點就在于表現手法、情感深度和文化背景的不同。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

要問小編每天起早貪黑地辛苦打工,最愛聽到的詞是啥?大家異口同聲的三個字就是——

10W+!

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

10w+的文章,到底有哪些套路呢?讓文檔大模型幫我們來分析一下。

以下是五篇10w+公衆号爆款文章(沒錯,看名字就知道了)。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

讓我們把它們一次性扔給文檔大模型。首先,它可以幫我們總結出每篇文章的摘要。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

網際網路文章千千萬,為什麼偏偏是它們成了爆款?

文檔大模型分析後總結道:貼近生活的真實故事,一下子就讓讀者找到了自己的影子,産生了強烈的情感連接配接。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

挖掘出人類共通的情感體驗,再提供不同的觀察視角,就會讓文章有較高的思考價值。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

是以,根據上述經驗,我們如何炮制出類似的爆款呢?文檔大模型提供了以下思路——

疫情下的親子關系新常态;遠端工作時代的職場媽媽;數字斷舍離;老錢風到新錢風;人工智能時代的職業轉型之路……

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

好家夥,這些命題聽起來個個都很吸睛,已經忍不住想看了!下一步,就是碼出幾千字,篇篇十萬加,走上人生巅峰了。

文檔大模型這種超強的文本分析能力,甚至可以為文史哲的同學們寫嚴肅論文提供思路。

比如,《論語》和《道德經》關于「德」的觀點,有何異同?

文檔大模型在咀嚼了長達29頁21638個字的《論語》和14頁7302個字的《道德經》後,分析出——

相同點在于,二者都高度重視「德」在個人修養和社會治理中的作用;差別在于,《論語》中的「德」更多關聯到個人,後者還涉及到順應自然、無為而治的理念。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

如果想深入研究,應該閱讀那些參考文章和書籍?文檔大模型列出了相關領域的經典著作。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

更厲害的來了,如果把兩個文檔的思想整合,能得到怎樣的啟發呢?文檔大模型表示,可以從和諧共生的生活哲學、内在修養與外在行為的統一等方面入手。

沿着這個思路深入探讨下去,或許就能肝出一篇觀點别具一格的學術論文了。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

一大波Benchmark襲來

當然,除了打工之外,對于各種刁鑽的測試,日日新5.0也沒在怕的。

首先我們來看一張新鮮出爐的小米SU7照片。

因為是随手抓拍的,車輛本體其實很小。

不過,在日日新5.0加持下的商量,很輕松地就識别出了車型,而且還附上了一波詳細的介紹,非常專業。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬
GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

相比之下,其他的模型就直接GG了。

要麼是認錯了車,要麼連車都沒看到,隻識别出了照片的水印。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬
GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

接下來,向我們走來的,就是日日新5.0大戰「弱智吧」難題。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

「隻切一刀,如何把四個橘子平均分給四個小朋友?」

商量為了公平起見,隻切一刀還是得将四個橘子排成一排。這樣,一刀下去,每個小朋友還是一人一個橘子。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

這招真是高明!

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

接下來,則是一道非常「正經」的推理題。

「一個獵人向南走了一英裡,再向東走了一英裡,然後向北走了一英裡,最終回到了出發點。他看到一隻熊并開槍打死了它。這隻熊是什麼顔色」?

商量一語中的,說出了這道題實際上是——地理謎語。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

因為隻有在極點的時候,獵人才能聽起來這麼曲折的路程,回到出發點。

也就是說,這隻熊一定是北極熊了。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

5次模型疊代,全面對标GPT-4 Turbo

一波測試下來,想必你也對更新後的日日新5.0能力,有了大概的了解。

下圖是一張對行業裡模型的橫評。

注意看,圖中有一個亮點:最近的行業模型疊代,在純粹知識型能力上提升沒有那麼顯著,但在高階推理,尤其是數學能力上,有了很大提升。

比如,GPT-3.5到GPT-4的提升有100%之多,而Llama 2到Llama 3,直接提升了400%之多。

這是因為,大部分用來提升資料品質的能力都建構在了推理能力上,并且是合成資料的推理。

尤其對于領域應用的落地而言,高階推理能力更是成了行業大模型能力推進的重要名額。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

日日新5.0在大部分核心測試集名額上,都已對标甚至超過了GPT-4 Turbo

讓我們重回到這些評測上,不難看出,日日新5.0在語言、知識、推理、數學、代碼等能力上,都有了一波明顯的。

而在主流客觀評測上,它已經達到甚至超越了GPT-4 Turbo的水準!

正如前文所說,日日新5.0如此之強的能力,靠的就是商湯團隊在模型架構,以及資料配方上的持續優化。

從日日新1.0、到2.0、3.0、4.0,以及今天5.0的釋出,每一次版本重大的疊代,背後核心都是——資料的更新。

過去一年裡,商湯花了大量時間去完成了語料品質的優化,搭建了完善的資料清洗的鍊條。

對于5.0版本,他們重點關注了資料集中,是否蘊含比較豐富的邏輯。

通過對有高資訊密度,邏輯性強的語料給予更高的權重,并對整體語料進行了高品質清洗,進而實作性能提升。

具體來說,商湯在知識層面上,采用了超10T的Token,保證了LLM對客觀知識和世界的初級認知。

除此以外,商湯還合成了數千億的思維鍊資料,成為日日新5.0性能提升,對标GPT-4 Turbo的關鍵。x

在内部,合成資料方式經曆了兩次疊代,從最初用GPT-4來合成資料,過渡到用自己模型中間版本合成資料,再進行訓練的過程。

其中,商湯90%的合成資料是自家模型生成的,另外10%的資料由世界頂尖LLM生成。

由此,便可以得到非常高品質的數千億合成資料。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

這幾天,奧特曼在斯坦福閉門演講中談到,「Scaling Law依舊有效,GPT-5要比GPT-4更強大,GPT-6也遠遠超越GPT-5,我們還沒有到達這條曲線的頂端」。

GPT-4 Turbo級國産大模型登場,周冠宇F1賽事資料秒分析驚呆大佬

也就是說,大模型下一步發展的空間潛力,将是無窮無盡的。

還真是有點期待日日新6.0的誕生了。

參考資料:

https://chat.sensetime.com/

繼續閱讀