#挑戰30天在頭條寫日記#
當人們在擔心GPT-4飛的太快時,出乎意料的事情發生了:GPT-4竟然被強行降智了!
人工智能秒變"人工智障",到底發生了什麼?
這還要從一份論文說起~
該論文名為《ChatGPT的行為是如何随時間變化的?》(How Is ChatGPT’s Behavior Changing over Time? ),來自斯坦福大學及加州大學伯克利分校的研究人員。
論文評估了GPT-3.5和GPT-4在2023年3月和6月的變化。
詭異的是GPT-3.5更智能了,但GPT-4更智障了。
首先,研究人員給出500個數學問題,GPT-3.5回答的準确率有了很大的提高,從3月份的7.4%提高到6月份的86.8%,但GPT-4的準确率卻從3月的97.6%下降到6月的2.4%。
論文中還以其中一個問題進行了舉例:“17077是不是一個質數?”(科普:一個大于1的自然數,除了1和它自身外,不能被其他自然數整除的數叫做質數)
接下來,3月版本的GPT-4很好的遵循了思維鍊指令,首先将任務分解為四個步驟,檢查17077是否為偶數,找到它的平方根,擷取所有小于它的質數,檢查17077是否能被其中的任何一個數整除。然後它執行每個步驟,最終得出正确的答案,即17077确實是質數。
而6月版本的GPT-4完全沒有生成任何中間步驟,隻是簡單粗暴的給出了一個錯誤答案“NO”。
對比之下,GPT-3.5恰好相反,3月版本的給出錯誤答案“NO”,6月版本的給出合了解答思路并呈現了正确答案。
相信你看到這裡,很多人不免發出疑問:這不是見了鬼了嘛~
除了解決數學問題的能力之外,研究人員還在回答敏感問題、代碼生成、視覺推理,三個方面進行了測試。
其中代碼生成能力方面,GPT-4也表現出了明顯的“降智”。
研究中通過50個相關問題的測試發現,GPT-4在3月份有52.0%的代碼是可以直接執行的,在六月降至10.0%。作者總結稱:代碼生成,更冗長,可執行的更少。
在回答敏感問題方面,GPT-4回答的機率下降了超四分之三,相應做出的解釋也變少了。可以看出,GPT-4的實用性表現有所下降,但安全性得到提升。
最後,視覺推理方面,整體來看變化不大。
通過以上論文的介紹,不免讓人質疑兩個問題~
- 論文的可信度如何?
- 如果論文屬實,降智的原因是什麼?
首先,近期我們确實看到有很多使用者吐槽GPT-4變得“更懶”、“更笨”。
部分使用者在Twitter和OpenAI線上開發者論壇上表示,問題包括邏輯弱化、錯誤響應增多、無法跟蹤所提供的資訊、難以遵循指令、忘記在基本軟體代碼中添加括号以及隻記住最近的提示等。
甚至Roblox産品負責人Peter Yang在Twitter上也提到,該模型生成的輸出速度更快,但品質較差。
另外,OpenAI也在近期表示:“雖然大多數名額都得到了改善,但某些任務的性能可能會變得更差。”
從這裡不難發現,論文中的問題也許所言非虛。
那麼最後的問題就在于,為什麼會這樣~
目前有這樣幾種猜測:
一切為了安全。一直以來,AI的安全性都在面臨着越來越嚴峻的考驗,從版權到隐私保護等等,各國也紛紛表示将出台監管措施。是以,平台将逐漸加強産品的安全性,比如安全過濾器等措施導緻模型邏輯受到影響,進而導緻降智問題。
降低成本。大模型的高成本是顯而易見的,為了解決這一問題,平台會簡化決策,降低計算成本,這也會導緻産品表現下滑的問題出現。
另外,還有使用者懷疑與OpenAI 對系統的重大重新設計有關。也有陰謀論認為是為了後續的收費增智,故意提前降智。
作為行業翹楚的ChatGPT,釋出僅半年,就已經掀起了全球的AI浪潮。作為一股能夠改變世界的力量,其誘惑力是誰也無法抗拒的。雖然這次“降智”引起了小小波瀾,但未來AI的飛速發展将成為毋庸置疑的事實。
最後,你認為最近GPT-4為什麼會變笨呢?歡迎發表您的高見~