天天看點

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

作者:量子位

夢晨 克雷西 發自 凹非寺

量子位 | 公衆号 QbitAI

大模型天花闆GPT-4,它是不是……變笨了?

先是少數使用者提出質疑,随後大量網友表示自己也注意到了,還貼出不少證據。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

有人回報,把GPT-4的3小時25條對話額度一口氣用完了,都沒解決自己的代碼問題。

無奈切換到GPT-3.5,反倒解決了。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

總結下大家的回報,最主要的幾種表現有:

  • 以前GPT-4能寫對的代碼,現在滿是Bug
  • 回答問題的深度和分析變少了
  • 響應速度比以前快了

這就引起不少人懷疑,OpenAI是不是為了節省成本,開始偷工減料?

兩個月前GPT-4是世界上最偉大的寫作助手,幾周前它開始變得平庸。我懷疑他們削減了算力或者把它變得沒那麼智能。
GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

這就不免讓人想起微軟新必應“出道即巅峰”,後來慘遭“前額葉切除手術”能力變差的事情……

網友們互相交流自己的遭遇後,“幾周之前開始變差”,成了大家的共識。

一場輿論風暴同時在Hacker News、Reddit和Twitter等技術社群形成。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

這下官方也坐不住了。

OpenAI開發者推廣大使Logan Kilpatrick,出面回複了一位網友的質疑:

API 不會在沒有我們通知您的情況下更改。那裡的模型處于靜止狀态。
GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

不放心的網友繼續追問确認“就是說GPT-4自從3月14日釋出以來都是靜态的對吧?”,也得到了Logan的肯定回答。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

“我注意到對于某些提示詞表現不一緻,隻是由于大模型本身的不穩定性嗎?”,也得到了“Yes”的回複。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

但是截至目前,針對網頁版GPT-4是否被降級過的兩條追問都沒有得到回答,并且Logan在這段時間有釋出别的内容。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

那麼事情究竟如何,不如自己上手測試一波。

對于網友普遍提到GPT-4寫代碼水準變差,我們做了個簡單實驗。

實測GPT-4“煉丹”本領下降了嗎?

3月底,我們曾實驗過讓GPT-4“煉丹”,用Python寫一個多層感覺機來實作異或門。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

△ShareGPT截圖,界面稍有不同

讓GPT-4改用numpy不用架構後,第一次給出的結果不對。

在修改兩次代碼後,運作得到了正确結果。第一次修改隐藏神經元數量,第二次把激活函數從sigmoid修改成tanh。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

6月2日,我們再次嘗試讓GPT-4完成這個任務,但換成了中文提示詞。

這回GPT-4第一次就沒有使用架構,但給的代碼仍然不對。

後續隻修改一次就得到正确結果,而且換成了力大磚飛的思路,直接增加訓練epoch數和學習率。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑
GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

回答的文字部分品質也未觀察到明顯下降,但響應速度感覺确實有變快。

由于時間有限,我們隻進行了這一個實驗,且由于AI本身的随機性,也并不能否定網友的觀察。

最早4月19日就有人回報

我們在OpenAI官方Discord頻道中搜尋,發現從4月下旬開始,就不時有零星使用者回報GPT-4變差了。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

但這些回報并未引發大範圍讨論,也沒有得到官方正式回應。

5月31日,Hacker News和Twitter同天開始大量有網友讨論這個問題,成為整個事件的關鍵節點。

HackerNews一位網友指出,在GPT-4的頭像還是黑色的時候更強,現在紫色頭像版在修改代碼時會丢掉幾行。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

在Twitter上較早提出這個問題的,是HyperWrite(一款基于GPT API開發的寫作工具)的CEO,Matt Shumer。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

但這條推文卻引發了許多網友的共鳴,OpenAI員工回複的推文也正是針對這條。

不過這些回應并沒讓大家滿意,反而讨論的範圍越來越大。

比如Reddit上一篇文章提到,原來能回答代碼問題的GPT-4,現在連哪些是代碼哪些是問題都分不出來了。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

在其他網友的追問下,文章作者對問題出現的過程進行了概述,還附上了和GPT的聊天記錄。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

對于OpenAI聲稱模型從三月就沒有改動過,公開層面确實沒有相關記錄。

ChatGPT的更新日志中,分别在1月9日、1月30日、2月13日提到了對模型本身的更新,涉及改進事實準确性和數學能力等。

但自從3月14日GPT-4釋出之後就沒提到模型更新了,隻有網頁APP功能調整和添加聯網模式、插件模式、蘋果APP等方面的變化。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

假設真如OpenAI所說,GPT-4模型本身的能力沒有變化,那麼這麼多人都感覺它表現變差是怎麼回事呢?

很多人也給出了自己的猜想。

第一種可能的原因是心理作用。

Keras創始人François Chollet就表示,不是GPT的表現變差,而是大家渡過了最初的驚喜期,對它的期待變高了。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

Hacker News上也有網友持相同觀點,并補充到人們的關注點發生了改變,對GPT失誤的敏感度更高了。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

抛開人們心理感受的差異,也有人懷疑API版本和網頁版本不一定一緻,但沒什麼實據。

還有一種猜測是在啟用插件的情況下,插件的額外提示詞對要解決的問題來說可能算一種污染。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

△WebPilot插件中的額外提示詞

這位網友就表示,在他看來GPT表現變差正是從插件功能開始公測之後開始的。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

也有人向OpenAI員工詢問是否模型本身沒變,但推理參數是否有變化?

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

量子位也曾偶然“拷問”出ChatGPT在iOS上的系統提示詞與網頁版并不一緻。

  • 如果在手機端開啟一個對話,它會知道自己在通過手機與你互動。
  • 會把回答控制在一到兩句話,除非需要長的推理。
  • 不會使用表情包,除非你明确要求他使用。
GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

△不一定成功,大機率拒絕回答

那麼如果在網頁版繼續一個在iOS版開啟的對話而沒意識到,就可能觀察到GPT-4回答變簡單了。

總之,GPT-4自釋出以來到底有沒有變笨,目前還是個未解之謎。

但有一點可以确定:

3月14日起大家上手玩到的GPT-4,從一開始就不如論文裡的。

與人類對齊讓AI能力下降

微軟研究院發表的150多頁刷屏論文《AGI的火花:GPT-4早期實驗》中明确:

他們早在GPT-4開發未完成時就得到了測試資格,并進行了長期測試。

後來針對論文中很多驚豔例子,網友都不能成功用公開版GPT-4複現。

目前學術界有個觀點是,後來的RLHF訓練雖然讓GPT-4更與人類對齊——也就更聽從人類訓示和符合人類價值觀——但也讓它自身的推理等能力變差。

論文作者之一、微軟科學家張弋在中文播客節目《What’s Next|科技早知道》S7E11期中也提到:

那個版本的模型,比現在外面大家都可以拿得到的GPT-4還要更強,強非常非常多。

舉例來說,微軟團隊在論文中提到,他們每隔相同一段時間就讓GPT-4使用LaTeX中的TikZ畫一個獨角獸來追蹤GPT-4能力的變化。

論文中展示的最後一個結果,畫得已經相當完善。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

但論文一作Sebastien Bubeck後續在MIT發表演講時透露了更多資訊。

後來當OpenAI開始關注安全問題的時候,後續版本在這個任務中變得越來越糟糕了。
GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

與人類對齊但并不降低AI自身能力上限的訓練方法,也成了現在很多團隊的研究方向,但還在起步階段。

除了專業研究團隊之外,關心AI的網友們也在用自己的辦法追蹤着AI能力的變化。

有人每天讓GPT-4畫一次獨角獸,并在網站上公開記錄。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

從4月12日開始,直到現在也還沒看出來個獨角獸的大緻形态。

GPT-4變笨引爆輿論!文本代碼品質都下降,OpenAI剛剛回應了質疑

當然網站作者表示,自己讓GPT-4使用SVG格式畫圖,與論文中的TikZ格式不一樣也有影響。

并且4月畫的與現在畫的似乎隻是一樣差,也沒看出來明顯退步。

最後來問問大家,你是GPT-4使用者麼?最近幾周有感到GPT-4能力下降麼?歡迎在評論區聊聊。

Bubeck演講:

https://www.youtube.com/watch?v=qbIk7-JPB2c

張弋訪談:

https://xyzfm.link/s/UfTan0

每天一個GPT-4獨角獸

https://gpt-unicorn.adamkdean.co.uk

參考連結:

[1]https://news.ycombinator.com/item?id=36134249

[2]https://twitter.com/nabeelqu/status/1663915378265800705

[3]https://twitter.com/OfficialLoganK/status/1663934947931897857

[4]https://discord.com/channels/974519864045756446/1001151820170801244

[5]https://twitter.com/mattshumer_/status/1663744527448829954

[6]https://www.reddit.com/r/ChatGPT/comments/13xik2o/chat_gpt_4_turned_dumber_today/

[7]https://help.openai.com/en/articles/6825453-chatgpt-release-notes

[8]https://twitter.com/fchollet/status/1664036777416597505

[9]https://news.ycombinator.com/item?id=36155267

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀