斯坦福大學和加州大學伯克利分校的研究人員進行的一項研究發現,ChatGPT的準确性已經出現下降。研究人員對ChatGPT進行了測試,發現它在一定時間内的行為發生了明顯變化,而且沒有好轉。更令人擔憂的是,沒有人能解釋這種惡化的原因。
為了檢查ChatGPT的一緻性,研究小組測試了AI的“漂移”傾向,即提供不同水準的品質和準确性的答案,以及它是否能夠正确地遵循給定的指令。研究人員要求ChatGPT-3.5和GPT-4解決數學問題、回答敏感和危險的問題、從提示中進行視覺推理并生成代碼。
研究人員發現,“總體而言......‘相同’LLM(大語言模型)服務的行為可以在相對較短的時間内發生重大變化,這凸顯了需要對LLM品質進行持續監控。”例如,GPT-4在2023年3月識别質數的準确率幾乎為98%。然而,到2023年6月,GPT-4在同一任務上的準确率戲劇性地下降到不到3%。與此同時,2023年6月的GPT-3.5在質數識别方面比其2023年3月版本有所提高。在生成計算機代碼方面,兩個版本在3月和6月之間生成計算機代碼的能力都變差了。
這些差異可能會對現實世界産生影響,并很快見效。本月早些時候,紐約大學的一個研究小組在《JMIR醫學教育》雜志上發表的一篇論文表明,ChatGPT對與保健相關的查詢的回答在語氣和措辭上似乎與人類醫療專業人員無異。研究人員向392人展示了10個病人的問題及答案,其中一半來自人類保健提供者,另一半來自OpenAI的LLM。參與者“難以”區分人類和聊天機器人筆下的回答。與此同時,人們越來越擔心AI處理醫療資料隐私的能力,以及它“幻想”不準确資訊的傾向。
不僅學術界注意到了ChatGPT的收益遞減。OpenAI的開發者論壇一直在就LLM的進步(或缺乏進步)進行持續辯論。“是否有人正式解決這個問題?作為付費客戶,它從偉大的副廚師變成了洗碗工。真的希望得到一個正式的回複,”一個使用者本月早些時候寫道。
OpenAI的LLM研發一直被嚴格封閉,不對外審查,這一政策引發了行業專家和使用者的強烈反彈和批評。“很難說清楚為什麼會發生這種情況,”加州大學伯克利分校計算機科學副教授、Databricks首席技術官,也是ChatGPT品質審查論文的合著者之一Matei Zaharia周三在推特上寫道。Zaharia繼續推測,強化學習人類回報(RLHF)可能與微調“遇到了瓶頸”,但也承認可能僅僅是系統中的錯誤。
是以,雖然ChatGPT可能通過了基本的圖靈測試基準,但其不均衡的品質仍對公衆構成了重大挑戰和擔憂,與此同時,幾乎沒有什麼能阻止它們繼續擴散和融入日常生活。
以上内容來源于網絡 僅供參考!(๑乛◡乛๑)
歡迎關注!點贊!評論!
你的評論将是我下一篇的動力來源!