百度对于文心一言的回应出来了,很多人看不懂,我来白话一下
1 AI的能力由两部分组成,
一个是自主思考能力,你可以理解为智商,
一个是识别能力,你可以理解为知识,
简单来说,你再聪明,哪怕你懂相对论,但大脑知识库里如果不知道“斯堪的纳维亚半岛”是什么,面对题目可能依然是一头雾水。
2 目前百度的自主思考能力来自他们自研的ERNIE-ViLG
但他们用的“习题册”是用的国外的,也就是“全球互联网公开数据”
3 为什么用国外的不用国内的呢?因为国内的“习题册”比较少
习题册就是我之前说过的 网页链接
类似图一图二这样,和小孩的认字卡片有点像,你要用无数卡片告诉他们
苹果是什么,梨是什么,香蕉是什么
这块没有捷径,就得下硬功夫,找一大堆数据标注师来标注,你家小孩学了300个词,我家小孩就要学800个词,学的越多,能识别的越多。
比如chatgpt喂了海量习题册,标注对错的工作甚至外包到肯尼亚去。
国外因为起步早,习题册很多,而国内比较少,也不太准,甚至可能把苹果标注成香蕉。于是很可能的一个现象就是,中国的小孩练了5套外国试卷,1套中文试卷,看见苹果先说apple~
当然,这个问题百度自己也难辞其咎~因为中文数据库不重视不准确这事吧~
你百度不也经常百度出一堆营销号内容,
某种意义上你可以把情况理解为,今天百度自己要搜索东西,发现搜出来全是驴唇马嘴~
所以有的时候“行业生态”不是一句瞎话,因为你不知道未来哪天自己也要用到