文心一言是今年三月份百度发布的大语言模型,据说号称“参数量亚洲第一”。笔者时隔三个月终于搞到了尊贵的内测名额,抽空来做个相对全面的测试:
比较对象:GPT-3.5(官网不充值版本),newbing(新必应,据说提前拿到了GPT-4内核,但是阉割了一部分功能,)
一、先测试一个科普类逻辑问题:
GPT
文心
new bing
三个模型都给出了不错的解答。文心稍稍有点绕,在绕晕自己的边缘试探。
二、接着是一个难度适中的数学问题——一元三次方程:
(实测:这三个模型均能完成一元二次方程的运算)
GPT思路没问题,给出了一个正解,但后面似乎算错了:
中文提问情况下,newbing似乎不能理解我的意思(无论我之后如何纠正):
new bing
用英文提问时,newbing给出了正确的答案:
new bing
文心一言答案错误,而且错得不知怎么追问:
文心
三、最后是日程安排问题,看看它们做管家的本领如何:
文心
new bing
GPT
newbing表现最出色,GPT因为不能联网更新信息所以打了折扣,文心一言......似乎文心不能理解我的一些设定——外国AI比中国AI更懂中国人捏。
四、
实测结果,文心一言确实在不少方面是落后于顶尖AI模型的,比起GPT,也许它更像一个知识库plusplus版的siri,小度,或者小爱同学。
【AI使用建议:把它们当作人一样对话,而不是机械性地提问。回答中的错误,理解的偏差都应该及时纠正,并让它重新回答,这样往往会得到更准确的结论。】