ChatGPT质量下降，AI模型可靠性受质疑

作者：小菜鸟的一生 2023-07-26 17:38:00

斯坦福大学和加州大学伯克利分校的研究人员进行的一项研究发现，ChatGPT的准确性已经出现下降。研究人员对ChatGPT进行了测试，发现它在一定时间内的行为发生了明显变化，而且没有好转。更令人担忧的是，没有人能解释这种恶化的原因。

为了检查ChatGPT的一致性，研究小组测试了AI的“漂移”倾向，即提供不同水平的质量和准确性的答案，以及它是否能够正确地遵循给定的命令。研究人员要求ChatGPT-3.5和GPT-4解决数学问题、回答敏感和危险的问题、从提示中进行视觉推理并生成代码。

研究人员发现，“总体而言......‘相同’LLM(大语言模型)服务的行为可以在相对较短的时间内发生重大变化，这凸显了需要对LLM质量进行持续监控。”例如，GPT-4在2023年3月识别质数的准确率几乎为98%。然而，到2023年6月，GPT-4在同一任务上的准确率戏剧性地下降到不到3%。与此同时，2023年6月的GPT-3.5在质数识别方面比其2023年3月版本有所提高。在生成计算机代码方面，两个版本在3月和6月之间生成计算机代码的能力都变差了。

这些差异可能会对现实世界产生影响，并很快见效。本月早些时候，纽约大学的一个研究小组在《JMIR医学教育》杂志上发表的一篇论文表明，ChatGPT对与保健相关的查询的回答在语气和措辞上似乎与人类医疗专业人员无异。研究人员向392人展示了10个病人的问题及答案，其中一半来自人类保健提供者，另一半来自OpenAI的LLM。参与者“难以”区分人类和聊天机器人笔下的回答。与此同时，人们越来越担心AI处理医疗数据隐私的能力，以及它“幻想”不准确信息的倾向。

不仅学术界注意到了ChatGPT的收益递减。OpenAI的开发者论坛一直在就LLM的进步(或缺乏进步)进行持续辩论。“是否有人正式解决这个问题？作为付费客户，它从伟大的副厨师变成了洗碗工。真的希望得到一个正式的回复，”一个用户本月早些时候写道。

OpenAI的LLM研发一直被严格封闭，不对外审查，这一策略引发了行业专家和用户的强烈反弹和批评。“很难说清楚为什么会发生这种情况，”加州大学伯克利分校计算机科学副教授、Databricks首席技术官，也是ChatGPT质量审查论文的合著者之一Matei Zaharia周三在推特上写道。Zaharia继续推测，强化学习人类反馈(RLHF)可能与微调“遇到了瓶颈”，但也承认可能仅仅是系统中的错误。

因此，虽然ChatGPT可能通过了基本的图灵测试基准，但其不均衡的质量仍对公众构成了重大挑战和担忧，与此同时，几乎没有什么能阻止它们继续扩散和融入日常生活。

以上内容来源于网络仅供参考！(๑乛◡乛๑)

欢迎关注！点赞！评论！

你的评论将是我下一篇的动力来源！

ChatGPT质量下降，AI模型可靠性受质疑

继续阅读

中国是否错过了第四次工业革命？ChatGPT的出现是否代表中国又错过了百度和阿里的AI？确实跟ChatGPT有点差距，但

公告精选丨国光电器：公司研发的能搭载ChatGPT的智能音箱于本月推出；世纪天鸿：未向一笔两划提供“笔神作文”AI模型训练所需数据

Meta大动作！开源多感官AI模型，不仅能看会听，还能“感知温度”

用AI做游戏？开发者基于ChatGPT创建《BeatSaber》克隆版本。新闻速报：2023.05.11开发人员：使用C

让ChatGPT调用10万+开源AI模型！HuggingFace新功能爆火

百度首页上线AI对话的入口了，所有获得文心一言内测资格的用户应该都能看到这个入口了，PC端和手机端的百度APP应用都有。

一键控制10万多个AI模型，HuggingFace做了个「APP Store」

Meta首次公开自研AI芯片的进展，预计该芯片将于2025年正式问世。该芯片名为MetaTrainingandInfer

国外人工智能研究：一种可以通过文本描述直接生成视频的AI模型

为企业提供AI模型生产力工具，MLOps服务商「星鲸科技」获数千万元天使轮融资

芯片战再起之AMD打破英伟达垄断？今天半导体行业大事件，无疑是AMD重磅发布AIGPUMI300X正式向英伟达发起挑战。

中国科技一旦抱团发展，那进步真的是肉眼可见的！跟英文大模型比起来，现阶段，中文大模型多数只能完成单一任务。如果让一家企业

好久不关注Ai绘图了，今天看到一个由日本人开发的名为Bra的AI模型，用于生成逼真的亚洲美女图。效果杆杠的，要不我也不会

华为再次创造历史，盘古AI大模型太强了！华为再次创造历史，推出的盘古AI大模型备受瞩目。据报道，最近，华为在世界顶尖科学

妙鸭产品负责人：不与天真蓝、海马体争利，自研AI模型“提香”