天天看點

文心一言 vs ChatGPT,資料治理專業知識大比拼!

作者:一個資料人的自留地

9月1号淩晨,文心一言正式向全社會開放,使用者可以在 App Store 和安卓應用商店下載下傳“文心一言APP”或登入“文心一言官網”體驗。而此前則需要排隊領取内測資格。官方介紹,文心一言為百度全新一代知識增強大語言模型,能夠與人對話互動、回答問題、協助創作,高效便捷地幫助人們擷取資訊、知識和靈感。

我很想了解文心一言在資料治理領域的水準,同樣的資料治理問題,「文心一言」 vs ChatGPT4,二者究竟誰更勝一籌?以點帶面,我也很容易推斷文心一言在其它專業領域上能達到的水準。這裡假設ChatGPT4是基準分100分。

問題1:中繼資料是什麼意思?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,ChatGPT4的回答語言組織符合邏輯,非常具體,而且比較通俗易懂,「文心一言」感覺就是照搬了網上的定義,然後拼湊叜一起,「文心一言」該回合得50分。

問題2:如何跟五歲小孩解釋清楚中繼資料概念?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,「文心一言」和ChatGPT4的回答都是可以接受的,ChatGPT4似乎進化了,它甚至加上了多少個玩具這種抽象中繼資料,「文心一言」該回合得80分。

問題3:中繼資料和标簽有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,「文心一言」相比ChatGPT4的回答,即中繼資料是資料的固有屬性,标簽是使用者自定義的元素,用來标記對象,直接點出了兩者的本質差別,「文心一言」該回合得120分,我記得ChatGPT4原來也是回答的很好,但這次表現不佳。

問題4:中繼資料和資料字典有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,ChatGPT4明确指出了中繼資料和資料字典在用途、适用範圍的差別,而「文心一言」隻是把各自的定義再說了一遍,沒有去進行差別的抽象總結,「文心一言」該回合得70分。

問題5:中繼資料和資料标準有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,「文心一言」雖然大緻知道定義,但顯然沒有了解标準這個概念,因為它把基礎名額和計算名額當成了規範性限制,而名額隻是呈現的方式,跟是否标準其實沒啥關系,标準其實是非常通俗的知識,「文心一言」在關聯及推理能力還有欠缺,而ChatGPT4顯然了解透了,從它舉出的例子就知道,「文心一言」該回合得50分。

問題6:中繼資料和元模型有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,「文心一言」隻給出了一個定義,依樣畫葫蘆。ChatGPT4顯然有了自己的了解,「文心一言」該回合得50分。

問題7:中繼資料與資料編織有什麼關系?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,由于資料編織概念出現的比較晚,ChatGPT4無法回答,強行推理了一下,「文心一言」占了時間優勢,給出了一個定義,還是可以的,「文心一言」該回合得130分。

問題8:中繼資料和主動中繼資料有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,我都不太滿意,大家都隻說了表象,而沒有點出本質差別,是以差距不大。主動中繼資料是一種特殊的中繼資料,指的是在資料生産過程中主動收集和記錄的中繼資料。與之相對的是被動中繼資料,即在資料使用過程中自動生成的中繼資料,「文心一言」該回合得90分。

問題9:資料治理與資料管理有什麼本質的差別?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

碰到這種問題「文心一言」肯定是懵逼的,我一直在想為啥不拆字呢推理呢,ChatGPT4當它說出“資料治理是“規定應該做什麼”,而資料管理是“實際如何做”。資料治理為資料管理提供了架構、指導和标準”這麼經典的話時,你還有什麼好挑剔的呢?「文心一言」該回合得20分。

問題10:主資料是什麼意思?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,兩者都給出了定義和例子,算是打平,「文心一言」相對簡單一點,「文心一言」該回合得80分。

問題11:主資料有什麼特征?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,兩者都給出了主資料的三個核心特征,關鍵性、共享性和持久性,「文心一言」該回合得90分。

問題12:什麼是主資料管理?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果明顯感覺到「文心一言」的詞窮,它大緻知道主資料管理的目标,但有具體哪些舉措不太清楚,ChatGPT4把你能想到的都列出來了,而且超出預期,比如資料治理和參數資料管理,「文心一言」該回合得60分。

問題13:主資料管理系統與ODS的本質差別

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,ChatGPT4在回答問題是有方法論指導的,非常金字塔結構,善于從多個方面來闡述,盡量覆寫全面,「文心一言」回答問題有點沒有章法,想到哪就說到哪,它并不完全了解ODS的目的,「文心一言」該回合得50分。

問題14:資料元是什麼?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,ChatGPT4給出的案例非常詳實,也容易看懂,「文心一言」雖然也給出了定義,但給出的例子卻是錯的,「文心一言」該回合得30分。

問題15:資料元和中繼資料有什麼差別?舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

隻能說,這個問題超越了「文心一言」的能力,「文心一言」該回合得10分。

問題16:什麼是資料架構,舉例說明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

資料架構其實并不是一個非常生僻的概念,但竟然完全超越了「文心一言」的回答能力,「文心一言」該回合得0分。

問題17:企業什麼時候開始資料治理比較合适?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

隻能說,這個問題超越了「文心一言」的能力,不僅突然跳出來S2,S4這種莫名其妙的術語,而且文字也沒怎麼組織,「文心一言」該回合得0分。

問題18:談一談資料倉庫、大資料平台、資料湖、資料中台的本質差別,盡量簡潔,能舉例最好

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,「文心一言」其實沒在講差別,而是羅列概念,而且有些自相沖突,ChatGPT4雖然也是在講概念,但要注意它講的各個概念的角度是一緻的,你從這些概念的解釋可以體會到互相之間的細微差别,最後還有一個總結,我還挺喜歡的,資料倉庫側重集中處理,大資料平台側重多樣化資料的處理,資料湖側重集中存儲,資料中台側重資料服務。「文心一言」該回合得30分。

問題19:請辨析資料、資料資源、資料資産和資料要素的聯系和差別

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從ChatGPT4的回答很容易區分出四者的聯系和差別,資料要素構成資料資源,重要的資料資源構成資料資産,所有可用的資料組成了資料資源。資料是這一體系的基礎,資料要素是組成部分,資料資源和資料資産是不同粒度的集合。「文心一言」并沒有解釋清楚資料要素的概念,甚至混淆資料要素和資料資産的差別,「文心一言」該回合得30分。

問題20:資料名額和資料标簽有什麼本質差別

  • 「文心一言」的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,資料治理專業知識大比拼!

從結果可以看出,兩者都點出了本質,ChatGPT4更詳實明細,「文心一言」該回合得80分。

20個問題問完了,相對于ChatGPT4,「文心一言」的均分為56分。「文心一言」關于專業知識的回答突出一個寡淡,至少90%對于我來講是沒有價值的,ChatGPT4的回答可以用豐富來總結,30%對我來講有點價值,10%屬于增量,5%會神來一筆。10%+5%正好是15%,這是學習的黃金比例。

由點到面,我們可以做個推斷,在專業領域,「文心一言」相比ChatGPT4還是有很大的差距;當然在文學,藝術或者曆史等等,「文心一言」估計表現要好得多,這個跟中文語料有莫大的關系。

在專業領域,英文世界的語料比中文多太多了,ChatGPT4在回答中文問題時,會把中文轉成英文,進而得到更為高品質的結果。想想也是,國内除了知乎和CSDN,還有幾個能夠免費擷取專業知識的網站呢?

無論怎麼說,「文心一言」還需要加油!

繼續閱讀