天天看點

GPT-4強行降智?!OpenAI的“小九九”暴露

作者:元力社

#挑戰30天在頭條寫日記#

當人們在擔心GPT-4飛的太快時,出乎意料的事情發生了:GPT-4竟然被強行降智了!

人工智能秒變"人工智障",到底發生了什麼?

GPT-4強行降智?!OpenAI的“小九九”暴露

這還要從一份論文說起~

該論文名為《ChatGPT的行為是如何随時間變化的?》(How Is ChatGPT’s Behavior Changing over Time? ),來自斯坦福大學及加州大學伯克利分校的研究人員。

論文評估了GPT-3.5和GPT-4在2023年3月和6月的變化。

詭異的是GPT-3.5更智能了,但GPT-4更智障了。

GPT-4強行降智?!OpenAI的“小九九”暴露

首先,研究人員給出500個數學問題,GPT-3.5回答的準确率有了很大的提高,從3月份的7.4%提高到6月份的86.8%,但GPT-4的準确率卻從3月的97.6%下降到6月的2.4%。

GPT-4強行降智?!OpenAI的“小九九”暴露

論文中還以其中一個問題進行了舉例:“17077是不是一個質數?”(科普:一個大于1的自然數,除了1和它自身外,不能被其他自然數整除的數叫做質數)

接下來,3月版本的GPT-4很好的遵循了思維鍊指令,首先将任務分解為四個步驟,檢查17077是否為偶數,找到它的平方根,擷取所有小于它的質數,檢查17077是否能被其中的任何一個數整除。然後它執行每個步驟,最終得出正确的答案,即17077确實是質數。

而6月版本的GPT-4完全沒有生成任何中間步驟,隻是簡單粗暴的給出了一個錯誤答案“NO”。

對比之下,GPT-3.5恰好相反,3月版本的給出錯誤答案“NO”,6月版本的給出合了解答思路并呈現了正确答案。

GPT-4強行降智?!OpenAI的“小九九”暴露

相信你看到這裡,很多人不免發出疑問:這不是見了鬼了嘛~

除了解決數學問題的能力之外,研究人員還在回答敏感問題、代碼生成、視覺推理,三個方面進行了測試。

其中代碼生成能力方面,GPT-4也表現出了明顯的“降智”。

研究中通過50個相關問題的測試發現,GPT-4在3月份有52.0%的代碼是可以直接執行的,在六月降至10.0%。作者總結稱:代碼生成,更冗長,可執行的更少。

GPT-4強行降智?!OpenAI的“小九九”暴露

在回答敏感問題方面,GPT-4回答的機率下降了超四分之三,相應做出的解釋也變少了。可以看出,GPT-4的實用性表現有所下降,但安全性得到提升。

GPT-4強行降智?!OpenAI的“小九九”暴露

最後,視覺推理方面,整體來看變化不大。

GPT-4強行降智?!OpenAI的“小九九”暴露

通過以上論文的介紹,不免讓人質疑兩個問題~

  • 論文的可信度如何?
  • 如果論文屬實,降智的原因是什麼?

首先,近期我們确實看到有很多使用者吐槽GPT-4變得“更懶”、“更笨”。

部分使用者在Twitter和OpenAI線上開發者論壇上表示,問題包括邏輯弱化、錯誤響應增多、無法跟蹤所提供的資訊、難以遵循指令、忘記在基本軟體代碼中添加括号以及隻記住最近的提示等。

甚至Roblox産品負責人Peter Yang在Twitter上也提到,該模型生成的輸出速度更快,但品質較差。

另外,OpenAI也在近期表示:“雖然大多數名額都得到了改善,但某些任務的性能可能會變得更差。”

從這裡不難發現,論文中的問題也許所言非虛。

GPT-4強行降智?!OpenAI的“小九九”暴露

那麼最後的問題就在于,為什麼會這樣~

目前有這樣幾種猜測:

一切為了安全。一直以來,AI的安全性都在面臨着越來越嚴峻的考驗,從版權到隐私保護等等,各國也紛紛表示将出台監管措施。是以,平台将逐漸加強産品的安全性,比如安全過濾器等措施導緻模型邏輯受到影響,進而導緻降智問題。

降低成本。大模型的高成本是顯而易見的,為了解決這一問題,平台會簡化決策,降低計算成本,這也會導緻産品表現下滑的問題出現。

另外,還有使用者懷疑與OpenAI 對系統的重大重新設計有關。也有陰謀論認為是為了後續的收費增智,故意提前降智。

GPT-4強行降智?!OpenAI的“小九九”暴露

作為行業翹楚的ChatGPT,釋出僅半年,就已經掀起了全球的AI浪潮。作為一股能夠改變世界的力量,其誘惑力是誰也無法抗拒的。雖然這次“降智”引起了小小波瀾,但未來AI的飛速發展将成為毋庸置疑的事實。

最後,你認為最近GPT-4為什麼會變笨呢?歡迎發表您的高見~

繼續閱讀