文心一言对比实测——和顶尖AI模型有多大差距？

作者：多彩的山峰 2023-07-01 14:57:00

文心一言是今年三月份百度发布的大语言模型，据说号称“参数量亚洲第一”。笔者时隔三个月终于搞到了尊贵的内测名额，抽空来做个相对全面的测试：

比较对象：GPT-3.5（官网不充值版本），newbing（新必应，据说提前拿到了GPT-4内核，但是阉割了一部分功能，）

一、先测试一个科普类逻辑问题：

GPT

文心

new bing

三个模型都给出了不错的解答。文心稍稍有点绕，在绕晕自己的边缘试探。

二、接着是一个难度适中的数学问题——一元三次方程：

（实测：这三个模型均能完成一元二次方程的运算）

GPT思路没问题，给出了一个正解，但后面似乎算错了：

中文提问情况下,newbing似乎不能理解我的意思（无论我之后如何纠正）：

new bing

用英文提问时，newbing给出了正确的答案：

new bing

文心一言答案错误，而且错得不知怎么追问：

文心

三、最后是日程安排问题，看看它们做管家的本领如何：

文心

new bing

GPT

newbing表现最出色，GPT因为不能联网更新信息所以打了折扣，文心一言......似乎文心不能理解我的一些设定——外国AI比中国AI更懂中国人捏。

四、

实测结果，文心一言确实在不少方面是落后于顶尖AI模型的，比起GPT，也许它更像一个知识库plusplus版的siri，小度，或者小爱同学。

【AI使用建议：把它们当作人一样对话，而不是机械性地提问。回答中的错误，理解的偏差都应该及时纠正，并让它重新回答，这样往往会得到更准确的结论。】

继续阅读