ChatGPT品質下降，AI模型可靠性受質疑

2023-07-26 17:38:00

斯坦福大學和加州大學伯克利分校的研究人員進行的一項研究發現，ChatGPT的準确性已經出現下降。研究人員對ChatGPT進行了測試，發現它在一定時間内的行為發生了明顯變化，而且沒有好轉。更令人擔憂的是，沒有人能解釋這種惡化的原因。

為了檢查ChatGPT的一緻性，研究小組測試了AI的“漂移”傾向，即提供不同水準的品質和準确性的答案，以及它是否能夠正确地遵循給定的指令。研究人員要求ChatGPT-3.5和GPT-4解決數學問題、回答敏感和危險的問題、從提示中進行視覺推理并生成代碼。

研究人員發現，“總體而言......‘相同’LLM(大語言模型)服務的行為可以在相對較短的時間内發生重大變化，這凸顯了需要對LLM品質進行持續監控。”例如，GPT-4在2023年3月識别質數的準确率幾乎為98%。然而，到2023年6月，GPT-4在同一任務上的準确率戲劇性地下降到不到3%。與此同時，2023年6月的GPT-3.5在質數識别方面比其2023年3月版本有所提高。在生成計算機代碼方面，兩個版本在3月和6月之間生成計算機代碼的能力都變差了。

這些差異可能會對現實世界産生影響，并很快見效。本月早些時候，紐約大學的一個研究小組在《JMIR醫學教育》雜志上發表的一篇論文表明，ChatGPT對與保健相關的查詢的回答在語氣和措辭上似乎與人類醫療專業人員無異。研究人員向392人展示了10個病人的問題及答案，其中一半來自人類保健提供者，另一半來自OpenAI的LLM。參與者“難以”區分人類和聊天機器人筆下的回答。與此同時，人們越來越擔心AI處理醫療資料隐私的能力，以及它“幻想”不準确資訊的傾向。

不僅學術界注意到了ChatGPT的收益遞減。OpenAI的開發者論壇一直在就LLM的進步(或缺乏進步)進行持續辯論。“是否有人正式解決這個問題？作為付費客戶，它從偉大的副廚師變成了洗碗工。真的希望得到一個正式的回複，”一個使用者本月早些時候寫道。

OpenAI的LLM研發一直被嚴格封閉，不對外審查，這一政策引發了行業專家和使用者的強烈反彈和批評。“很難說清楚為什麼會發生這種情況，”加州大學伯克利分校計算機科學副教授、Databricks首席技術官，也是ChatGPT品質審查論文的合著者之一Matei Zaharia周三在推特上寫道。Zaharia繼續推測，強化學習人類回報(RLHF)可能與微調“遇到了瓶頸”，但也承認可能僅僅是系統中的錯誤。

是以，雖然ChatGPT可能通過了基本的圖靈測試基準，但其不均衡的品質仍對公衆構成了重大挑戰和擔憂，與此同時，幾乎沒有什麼能阻止它們繼續擴散和融入日常生活。

以上内容來源于網絡僅供參考！(๑乛◡乛๑)

歡迎關注！點贊！評論！

你的評論将是我下一篇的動力來源！

ChatGPT品質下降，AI模型可靠性受質疑

繼續閱讀

中國是否錯過了第四次工業革命？ChatGPT的出現是否代表中國又錯過了百度和阿裡的AI？确實跟ChatGPT有點差距，但

公告精選丨國光電器：公司研發的能搭載ChatGPT的智能音箱于本月推出；世紀天鴻：未向一筆兩劃提供“筆神作文”AI模型訓練所需資料

Meta大動作！開源多感官AI模型，不僅能看會聽，還能“感覺溫度”

用AI做遊戲？開發者基于ChatGPT建立《BeatSaber》克隆版本。新聞速報：2023.05.11開發人員：使用C

讓ChatGPT調用10萬+開源AI模型！HuggingFace新功能爆火

百度首頁上線AI對話的入口了，所有獲得文心一言内測資格的使用者應該都能看到這個入口了，PC端和手機端的百度APP應用都有。

一鍵控制10萬多個AI模型，HuggingFace做了個「APP Store」

Meta首次公開自研AI晶片的進展，預計該晶片将于2025年正式問世。該晶片名為MetaTrainingandInfer

國外人工智能研究：一種可以通過文本描述直接生成視訊的AI模型

為企業提供AI模型生産力工具，MLOps服務商「星鲸科技」獲數千萬元天使輪融資

晶片戰再起之AMD打破英偉達壟斷？今天半導體行業大事件，無疑是AMD重磅釋出AIGPUMI300X正式向英偉達發起挑戰。

中國科技一旦抱團發展，那進步真的是肉眼可見的！跟英文大模型比起來，現階段，中文大模型多數隻能完成單一任務。如果讓一家企業

好久不關注Ai繪圖了，今天看到一個由日本人開發的名為Bra的AI模型，用于生成逼真的亞洲美女圖。效果杆杠的，要不我也不會

華為再次創造曆史，盤古AI大模型太強了！華為再次創造曆史，推出的盤古AI大模型備受矚目。據報道，最近，華為在世界頂尖科學

妙鴨産品負責人：不與天真藍、海馬體争利，自研AI模型“提香”