天天看点

文心一言对比实测——和顶尖AI模型有多大差距?

作者:多彩的山峰

文心一言是今年三月份百度发布的大语言模型,据说号称“参数量亚洲第一”。笔者时隔三个月终于搞到了尊贵的内测名额,抽空来做个相对全面的测试:

比较对象:GPT-3.5(官网不充值版本),newbing(新必应,据说提前拿到了GPT-4内核,但是阉割了一部分功能,)

一、先测试一个科普类逻辑问题:

文心一言对比实测——和顶尖AI模型有多大差距?

GPT

文心一言对比实测——和顶尖AI模型有多大差距?

文心

文心一言对比实测——和顶尖AI模型有多大差距?

new bing

三个模型都给出了不错的解答。文心稍稍有点绕,在绕晕自己的边缘试探。

二、接着是一个难度适中的数学问题——一元三次方程:

(实测:这三个模型均能完成一元二次方程的运算)

GPT思路没问题,给出了一个正解,但后面似乎算错了:

文心一言对比实测——和顶尖AI模型有多大差距?

中文提问情况下,newbing似乎不能理解我的意思(无论我之后如何纠正):

文心一言对比实测——和顶尖AI模型有多大差距?

new bing

用英文提问时,newbing给出了正确的答案:

文心一言对比实测——和顶尖AI模型有多大差距?

new bing

文心一言答案错误,而且错得不知怎么追问:

文心一言对比实测——和顶尖AI模型有多大差距?

文心

三、最后是日程安排问题,看看它们做管家的本领如何:

文心一言对比实测——和顶尖AI模型有多大差距?

文心

文心一言对比实测——和顶尖AI模型有多大差距?

new bing

文心一言对比实测——和顶尖AI模型有多大差距?

GPT

newbing表现最出色,GPT因为不能联网更新信息所以打了折扣,文心一言......似乎文心不能理解我的一些设定——外国AI比中国AI更懂中国人捏。

四、

实测结果,文心一言确实在不少方面是落后于顶尖AI模型的,比起GPT,也许它更像一个知识库plusplus版的siri,小度,或者小爱同学。

【AI使用建议:把它们当作人一样对话,而不是机械性地提问。回答中的错误,理解的偏差都应该及时纠正,并让它重新回答,这样往往会得到更准确的结论。】

文心一言对比实测——和顶尖AI模型有多大差距?

继续阅读