天天看点

文心一言 vs ChatGPT,数据治理专业知识大比拼!

作者:一个数据人的自留地

9月1号凌晨,文心一言正式向全社会开放,用户可以在 App Store 和安卓应用商店下载“文心一言APP”或登录“文心一言官网”体验。而此前则需要排队领取内测资格。官方介绍,文心一言为百度全新一代知识增强大语言模型,能够与人对话互动、回答问题、协助创作,高效便捷地帮助人们获取信息、知识和灵感。

我很想了解文心一言在数据治理领域的水平,同样的数据治理问题,「文心一言」 vs ChatGPT4,二者究竟谁更胜一筹?以点带面,我也很容易推断文心一言在其它专业领域上能达到的水准。这里假设ChatGPT4是基准分100分。

问题1:元数据是什么意思?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,ChatGPT4的回答语言组织符合逻辑,非常具体,而且比较通俗易懂,「文心一言」感觉就是照搬了网上的定义,然后拼凑叜一起,「文心一言」该回合得50分。

问题2:如何跟五岁小孩解释清楚元数据概念?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,「文心一言」和ChatGPT4的回答都是可以接受的,ChatGPT4似乎进化了,它甚至加上了多少个玩具这种抽象元数据,「文心一言」该回合得80分。

问题3:元数据和标签有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,「文心一言」相比ChatGPT4的回答,即元数据是数据的固有属性,标签是用户自定义的元素,用来标记对象,直接点出了两者的本质区别,「文心一言」该回合得120分,我记得ChatGPT4原来也是回答的很好,但这次表现不佳。

问题4:元数据和数据字典有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,ChatGPT4明确指出了元数据和数据字典在用途、适用范围的区别,而「文心一言」只是把各自的定义再说了一遍,没有去进行区别的抽象总结,「文心一言」该回合得70分。

问题5:元数据和数据标准有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,「文心一言」虽然大致知道定义,但显然没有理解标准这个概念,因为它把基础指标和计算指标当成了规范性约束,而指标只是呈现的方式,跟是否标准其实没啥关系,标准其实是非常通俗的知识,「文心一言」在关联及推理能力还有欠缺,而ChatGPT4显然理解透了,从它举出的例子就知道,「文心一言」该回合得50分。

问题6:元数据和元模型有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,「文心一言」只给出了一个定义,依样画葫芦。ChatGPT4显然有了自己的理解,「文心一言」该回合得50分。

问题7:元数据与数据编织有什么关系?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,由于数据编织概念出现的比较晚,ChatGPT4无法回答,强行推理了一下,「文心一言」占了时间优势,给出了一个定义,还是可以的,「文心一言」该回合得130分。

问题8:元数据和主动元数据有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,我都不太满意,大家都只说了表象,而没有点出本质区别,因此差距不大。主动元数据是一种特殊的元数据,指的是在数据生产过程中主动收集和记录的元数据。与之相对的是被动元数据,即在数据使用过程中自动生成的元数据,「文心一言」该回合得90分。

问题9:数据治理与数据管理有什么本质的区别?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

碰到这种问题「文心一言」肯定是懵逼的,我一直在想为啥不拆字呢推理呢,ChatGPT4当它说出“数据治理是“规定应该做什么”,而数据管理是“实际如何做”。数据治理为数据管理提供了框架、指导和标准”这么经典的话时,你还有什么好挑剔的呢?「文心一言」该回合得20分。

问题10:主数据是什么意思?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,两者都给出了定义和例子,算是打平,「文心一言」相对简单一点,「文心一言」该回合得80分。

问题11:主数据有什么特征?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,两者都给出了主数据的三个核心特征,关键性、共享性和持久性,「文心一言」该回合得90分。

问题12:什么是主数据管理?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果明显感觉到「文心一言」的词穷,它大致知道主数据管理的目标,但有具体哪些举措不太清楚,ChatGPT4把你能想到的都列出来了,而且超出预期,比如数据治理和参数数据管理,「文心一言」该回合得60分。

问题13:主数据管理系统与ODS的本质区别

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,ChatGPT4在回答问题是有方法论指导的,非常金字塔结构,善于从多个方面来阐述,尽量覆盖全面,「文心一言」回答问题有点没有章法,想到哪就说到哪,它并不完全理解ODS的目的,「文心一言」该回合得50分。

问题14:数据元是什么?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,ChatGPT4给出的案例非常详实,也容易看懂,「文心一言」虽然也给出了定义,但给出的例子却是错的,「文心一言」该回合得30分。

问题15:数据元和元数据有什么区别?举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

只能说,这个问题超越了「文心一言」的能力,「文心一言」该回合得10分。

问题16:什么是数据架构,举例说明

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

数据架构其实并不是一个非常生僻的概念,但竟然完全超越了「文心一言」的回答能力,「文心一言」该回合得0分。

问题17:企业什么时候开始数据治理比较合适?

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

只能说,这个问题超越了「文心一言」的能力,不仅突然跳出来S2,S4这种莫名其妙的术语,而且文字也没怎么组织,「文心一言」该回合得0分。

问题18:谈一谈数据仓库、大数据平台、数据湖、数据中台的本质区别,尽量简洁,能举例最好

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,「文心一言」其实没在讲区别,而是罗列概念,而且有些自相矛盾,ChatGPT4虽然也是在讲概念,但要注意它讲的各个概念的角度是一致的,你从这些概念的解释可以体会到互相之间的细微差别,最后还有一个总结,我还挺喜欢的,数据仓库侧重集中处理,大数据平台侧重多样化数据的处理,数据湖侧重集中存储,数据中台侧重数据服务。「文心一言」该回合得30分。

问题19:请辨析数据、数据资源、数据资产和数据要素的联系和区别

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从ChatGPT4的回答很容易区分出四者的联系和区别,数据要素构成数据资源,重要的数据资源构成数据资产,所有可用的数据组成了数据资源。数据是这一体系的基础,数据要素是组成部分,数据资源和数据资产是不同粒度的集合。「文心一言」并没有解释清楚数据要素的概念,甚至混淆数据要素和数据资产的区别,「文心一言」该回合得30分。

问题20:数据指标和数据标签有什么本质区别

  • 「文心一言」的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!
  • ChatGPT4的回答:
文心一言 vs ChatGPT,数据治理专业知识大比拼!

从结果可以看出,两者都点出了本质,ChatGPT4更详实明细,「文心一言」该回合得80分。

20个问题问完了,相对于ChatGPT4,「文心一言」的均分为56分。「文心一言」关于专业知识的回答突出一个寡淡,至少90%对于我来讲是没有价值的,ChatGPT4的回答可以用丰富来总结,30%对我来讲有点价值,10%属于增量,5%会神来一笔。10%+5%正好是15%,这是学习的黄金比例。

由点到面,我们可以做个推断,在专业领域,「文心一言」相比ChatGPT4还是有很大的差距;当然在文学,艺术或者历史等等,「文心一言」估计表现要好得多,这个跟中文语料有莫大的关系。

在专业领域,英文世界的语料比中文多太多了,ChatGPT4在回答中文问题时,会把中文转成英文,从而得到更为高质量的结果。想想也是,国内除了知乎和CSDN,还有几个能够免费获取专业知识的网站呢?

无论怎么说,「文心一言」还需要加油!

继续阅读