天天看點

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

作者:搜狐科技
"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

出品 | 搜狐科技

作者 | 潘琭玙

營運編輯 | 劉于嘉

8月24日,在好未來20周年直播活動中,CTO田密宣布好未來自研的數學領域千億級大模型MathGPT正式上線并開啟公測。

好未來介紹,MathGPT是面向全球數學愛好者和科研機構,以解題和講題算法為核心的數學垂直領域的大模型,也是國内首個專為數學打造的大模型。

MathGPT是否意味着“AI家教”成為可能?搜狐科技實測後發現MathGPT能夠順利完成國小試卷并且給出清晰的解答。在與GPT-4、文心一言的橫向對比中,MathGPT在數學應用題能力上表現優于文心一言、不如GPT-4。

作為垂直于教育的數學領域大模型,MathGPT比起通用大模型能夠更細緻地拆解題幹、提供重難點提示,也将有助于學生更好地吸收知識點。

田密表示,“好未來在數學的資料和業務上有20年的積累,有大量的教育資料的積累和持續生産教育資料的能力,是以選擇做這個難而正确的事情。”好未來希望用自己在數學和AI上的多年積累,做好AI大模型時代的數學基礎工作。

國小數學考試能拿90分

此前,國内外巨頭的大模型都被冠上“文科生”的名号,在翻譯、内容概括摘要、了解文本和生成對話等方面表現出色,但涉及邏輯與計算問題時會出現胡言亂語的情況。

好未來團隊指出,大模型“偏科”問題是因LLM模型的自身特點決定的。他們此前表示,“LLM大模型來自對海量語言文本的訓練,是以最擅長語言處理。”

基于此,好未來的MathGPT結合大語言模型和計算引擎,大語言模型負責了解題目、分步解析,并在合适的步驟自行調用計算引擎,以提高題目解答正确率。

進入MathGPT首頁,有國小、國中與高中三個不同程度的數學題難度。其中題目類型包含了找規律、邏輯分析、運算求解、随機現象、表達論述等。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

使用者可以選擇不同類型的數學題目進行針對性訓練,也可以直接通過底部的對話框向MathGPT提問。使用者可以通過文字或圖檔方式上傳數學題,即可得到對話式的解答回報,也可以通過“随機來一題”的按鈕,随機生成數學題目并由系統給出解答。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

搜狐科技随機選取了一份國小數學考卷的前10題,包含簡單的幾何、找規律以及算數題,MathGPT能夠回答正确9題,并且梳理出了解題邏輯以及考點。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

會解函數,不會解方程

據MathGPT官網顯示,MathGPT的數學計算能力已覆寫國小、國中、高中的數學題,題目類型涵蓋計算題、應用題、代數題等多個類型,還可以針對題目進行追問,暫未開放數學之外的問答互動。

搜狐科技随機搜尋一套高中數學題,通過圖檔提問的方式輸入指令。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

在五個題目中,僅有第三題的幾何圖檔無法直接轉化為文字指令,其他四題MathGPT均能夠準确将公式與數學符号轉化為文字。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

在準确率上,四題答案均正确,并且解題過程完整,包含了分析題幹、詳解題目,也提煉出了題目所考核的知識點,但其中兩題的分析過程語言出現了英文。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

但在解方程時,搜狐科技輸入兩道簡單的一進制一次方程求X或Y值的題目,其中一題MathGPT答案錯誤,并且解題方法也是錯誤混亂的。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

第二題雖然MathGPT給出了正确的結果,但在解答過程中的推理都是錯誤的。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

數學應用題解答能力

不如GPT-4、優于文心一言

根據MathGPT技術報告顯示,在CEval-Math、AGIEval-Math、APE5K、CMMLU-Math、聯考數學和Math401等6個公開數學評測集合的測試結果中,好未來的MathGPT取得了多項測試的最高分數。同時,MathGPT在C-Eval的初高中的全科測試集合上也均有不錯的表現。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

基于此,搜狐科技選取三種不同難度的應用題,同時對MathGPT、GPT-4和文心一言進行測試。

在難倒一衆大模型“文科生”的雞兔同籠題目上,搜狐科技以“雞兔同籠,頭共20個,足共62隻,求雞與兔各有多少隻?”該題目對三個大模型進行測試,均回答正确。其中,文心一言與MathGPT的解題邏輯相比GPT-4會更簡潔易懂。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(文心一言答雞兔同籠)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(GPT-4答雞兔同籠)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(MathGPT答雞兔同籠)

同時,MathGPT的優勢在于,通過【分析】、【詳解】與【點睛】三個子產品拆解數學題進行解析,分析題幹并且總結知識點,同時也給到了第二種解題方法“方程解答”。

第二題是以設X,列一進制一次方程式解答的應用題,題幹為:“傑森往池塘水面上的扔一塊石頭。石頭在池塘表面反彈三下。如果第二次彈跳是第一次彈跳距離的一半,第三次彈跳是第二次彈跳距離的四分之一,彈跳之間的總距離是 65 英寸,那麼岩石在第一次彈跳時移動了多少英寸?”

結果表明,GPT-4的答案與解題過程正确,文心一言的解題過程與答案均錯誤。MathGPT在設X與列出方程的步驟是正确的,但是在解方程的過程中出現錯誤。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(文心一言答案)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(GPT-4答案)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(MathGPT答案)

第三題能夠以等量代換的邏輯解答,題幹為:“1個蘋果=2個梨,3個梨=4個橙子,6個橙子=7個香蕉,56個香蕉等于多少個蘋果?”

結果顯示GPT-4過程與答案正确,文心一言解題邏輯正确但答案錯誤。MathGPT能夠總結出題目知識點是等量代換,但解題思路與分析均錯誤。

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(文心一言答案)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(GPT-4答案)

"AI家教"?好未來MathGPT:國小數學考試能拿90分 !

(MathGPT答案)

田密認為,大模型的本質,是一種更高效的、從資料中學習知識并加以應用的方式。在AI能力的加持下,“學生自學+AI答疑”的新型學習方式成為可能。MathGPT作為垂直大模型,在答案之外能夠更詳細地總結出解題思路、思考方式以及對題目的考點、難點、關鍵點進行提示。但若要真正成為“AI家教“,輔助學生完成自學,在準确率上仍有較大提升空間。

據田密介紹,随着公測的順利進行,MathGPT的解題能力将得到持續提升,基于MathGPT的産品級應用也正在加速研發中,将于近期釋出。