文心一言 vs ChatGPT，資料治理專業知識大比拼！

9月1号淩晨，文心一言正式向全社會開放，使用者可以在 App Store 和安卓應用商店下載下傳“文心一言APP”或登入“文心一言官網”體驗。而此前則需要排隊領取内測資格。官方介紹，文心一言為百度全新一代知識增強大語言模型，能夠與人對話互動、回答問題、協助創作，高效便捷地幫助人們擷取資訊、知識和靈感。

我很想了解文心一言在資料治理領域的水準，同樣的資料治理問題，「文心一言」 vs ChatGPT4，二者究竟誰更勝一籌？以點帶面，我也很容易推斷文心一言在其它專業領域上能達到的水準。這裡假設ChatGPT4是基準分100分。

問題1：中繼資料是什麼意思？

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，ChatGPT4的回答語言組織符合邏輯，非常具體，而且比較通俗易懂，「文心一言」感覺就是照搬了網上的定義，然後拼湊叜一起，「文心一言」該回合得50分。

問題2：如何跟五歲小孩解釋清楚中繼資料概念？

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，「文心一言」和ChatGPT4的回答都是可以接受的，ChatGPT4似乎進化了，它甚至加上了多少個玩具這種抽象中繼資料，「文心一言」該回合得80分。

問題3：中繼資料和标簽有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，「文心一言」相比ChatGPT4的回答，即中繼資料是資料的固有屬性，标簽是使用者自定義的元素，用來标記對象，直接點出了兩者的本質差別，「文心一言」該回合得120分，我記得ChatGPT4原來也是回答的很好，但這次表現不佳。

問題4：中繼資料和資料字典有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，ChatGPT4明确指出了中繼資料和資料字典在用途、适用範圍的差別，而「文心一言」隻是把各自的定義再說了一遍，沒有去進行差別的抽象總結，「文心一言」該回合得70分。

問題5：中繼資料和資料标準有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，「文心一言」雖然大緻知道定義，但顯然沒有了解标準這個概念，因為它把基礎名額和計算名額當成了規範性限制，而名額隻是呈現的方式，跟是否标準其實沒啥關系，标準其實是非常通俗的知識，「文心一言」在關聯及推理能力還有欠缺，而ChatGPT4顯然了解透了，從它舉出的例子就知道，「文心一言」該回合得50分。

問題6：中繼資料和元模型有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，「文心一言」隻給出了一個定義，依樣畫葫蘆。ChatGPT4顯然有了自己的了解，「文心一言」該回合得50分。

問題7：中繼資料與資料編織有什麼關系？

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，由于資料編織概念出現的比較晚，ChatGPT4無法回答，強行推理了一下，「文心一言」占了時間優勢，給出了一個定義，還是可以的，「文心一言」該回合得130分。

問題8：中繼資料和主動中繼資料有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，我都不太滿意，大家都隻說了表象，而沒有點出本質差別，是以差距不大。主動中繼資料是一種特殊的中繼資料，指的是在資料生産過程中主動收集和記錄的中繼資料。與之相對的是被動中繼資料，即在資料使用過程中自動生成的中繼資料，「文心一言」該回合得90分。

問題9：資料治理與資料管理有什麼本質的差別？

「文心一言」的回答：

ChatGPT4的回答：

碰到這種問題「文心一言」肯定是懵逼的，我一直在想為啥不拆字呢推理呢，ChatGPT4當它說出“資料治理是“規定應該做什麼”，而資料管理是“實際如何做”。資料治理為資料管理提供了架構、指導和标準”這麼經典的話時，你還有什麼好挑剔的呢？「文心一言」該回合得20分。

問題10：主資料是什麼意思？

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，兩者都給出了定義和例子，算是打平，「文心一言」相對簡單一點，「文心一言」該回合得80分。

問題11：主資料有什麼特征？

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，兩者都給出了主資料的三個核心特征，關鍵性、共享性和持久性，「文心一言」該回合得90分。

問題12：什麼是主資料管理？

「文心一言」的回答：

ChatGPT4的回答：

從結果明顯感覺到「文心一言」的詞窮，它大緻知道主資料管理的目标，但有具體哪些舉措不太清楚，ChatGPT4把你能想到的都列出來了，而且超出預期，比如資料治理和參數資料管理，「文心一言」該回合得60分。

問題13：主資料管理系統與ODS的本質差別

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，ChatGPT4在回答問題是有方法論指導的，非常金字塔結構，善于從多個方面來闡述，盡量覆寫全面，「文心一言」回答問題有點沒有章法，想到哪就說到哪，它并不完全了解ODS的目的，「文心一言」該回合得50分。

問題14：資料元是什麼？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，ChatGPT4給出的案例非常詳實，也容易看懂，「文心一言」雖然也給出了定義，但給出的例子卻是錯的，「文心一言」該回合得30分。

問題15：資料元和中繼資料有什麼差別？舉例說明

「文心一言」的回答：

ChatGPT4的回答：

隻能說，這個問題超越了「文心一言」的能力，「文心一言」該回合得10分。

問題16：什麼是資料架構，舉例說明

「文心一言」的回答：

ChatGPT4的回答：

資料架構其實并不是一個非常生僻的概念，但竟然完全超越了「文心一言」的回答能力，「文心一言」該回合得0分。

問題17：企業什麼時候開始資料治理比較合适？

「文心一言」的回答：

ChatGPT4的回答：

隻能說，這個問題超越了「文心一言」的能力，不僅突然跳出來S2，S4這種莫名其妙的術語，而且文字也沒怎麼組織，「文心一言」該回合得0分。

問題18：談一談資料倉庫、大資料平台、資料湖、資料中台的本質差別，盡量簡潔，能舉例最好

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，「文心一言」其實沒在講差別，而是羅列概念，而且有些自相沖突，ChatGPT4雖然也是在講概念，但要注意它講的各個概念的角度是一緻的，你從這些概念的解釋可以體會到互相之間的細微差别，最後還有一個總結，我還挺喜歡的，資料倉庫側重集中處理，大資料平台側重多樣化資料的處理，資料湖側重集中存儲，資料中台側重資料服務。「文心一言」該回合得30分。

問題19：請辨析資料、資料資源、資料資産和資料要素的聯系和差別

「文心一言」的回答：

ChatGPT4的回答：

從ChatGPT4的回答很容易區分出四者的聯系和差別，資料要素構成資料資源，重要的資料資源構成資料資産，所有可用的資料組成了資料資源。資料是這一體系的基礎，資料要素是組成部分，資料資源和資料資産是不同粒度的集合。「文心一言」并沒有解釋清楚資料要素的概念，甚至混淆資料要素和資料資産的差別，「文心一言」該回合得30分。

問題20：資料名額和資料标簽有什麼本質差別

「文心一言」的回答：

ChatGPT4的回答：

從結果可以看出，兩者都點出了本質，ChatGPT4更詳實明細，「文心一言」該回合得80分。

20個問題問完了，相對于ChatGPT4，「文心一言」的均分為56分。「文心一言」關于專業知識的回答突出一個寡淡，至少90%對于我來講是沒有價值的，ChatGPT4的回答可以用豐富來總結，30%對我來講有點價值，10%屬于增量，5%會神來一筆。10%+5%正好是15%，這是學習的黃金比例。

由點到面，我們可以做個推斷，在專業領域，「文心一言」相比ChatGPT4還是有很大的差距；當然在文學，藝術或者曆史等等，「文心一言」估計表現要好得多，這個跟中文語料有莫大的關系。

在專業領域，英文世界的語料比中文多太多了，ChatGPT4在回答中文問題時，會把中文轉成英文，進而得到更為高品質的結果。想想也是，國内除了知乎和CSDN，還有幾個能夠免費擷取專業知識的網站呢？

無論怎麼說，「文心一言」還需要加油！

文心一言 vs ChatGPT，資料治理專業知識大比拼！

繼續閱讀

蘋果放棄造車原因曝光！體驗ChatGPT後怕掉隊，傳正接洽Rivian

ChatGPT沒有做的AI搜尋，是不是下一個戰場

最強OpenAI釋出新ChatGPT-4o，AI領域的突破情感識别+視覺了解

OpenAI一夜幹翻語音助手！ChatGPT學會看螢幕，現實版Her來了

突然殺出！中國版阿裡ChatGPT來了！我忍不住去注冊體驗

胡錫進要失業了？網友用ChatGPT模仿“胡編體”寫作，笑瘋

從人機互動角度聊聊ChatGPT-4o

iOS 版 ChatGPT 更新支援 App 首選語言設定中文

如何讓ChatGPT更“懂你”

生成式人工智能的風險與治理——以ChatGPT為例

這才是ChatGPT4o最大的更新！釋出會居然隻字未提！GPT-4o的識圖能力居然這麼強！連人像照都可以看出是誰👍我這裡

ChatGPT 新功能上線：聊天時可直接選擇 OneDrive 等網盤檔案｜懂點AI

ChatGPT能夠幫助醫生準确分析臨床研究和病案記錄

ChatGPT 日耗電超 50 萬度，卡死AI發展的竟然是能源？

恐怖！懇求斯坦福教授幫它“越獄”？ChatGPT-4已出現自

和ChatGPT搞黃色的年輕人