上手ChatGPT威力加強版後，我發現它很強，但也有點拉。。。

今天淩晨，OpenAI 釋出了最新的 GPT-4。

根據釋出會披露的内容來看，這個新一代比早先大家使用的 ChatGPT 的 GPT-3.5 核心強悍了一大截，再次重新整理了編輯部對 AI 的認知。

首先，非常非常重要的一點是，GPT-4 可以接受文字以外的内容輸入了，目前支援文字與圖像的混合輸入。

在官方的示例中，使用者給 GPT-4 上傳了一張梗圖，問 GPT-4 這張圖為什麼好笑：

GPT-4 非常詳細且精準地描述出了圖檔上的内容。

并且有思維條理的解釋了，為什麼這張圖會讓人覺得好笑。

這還不算完，就算是十分抽象的 Meme，它也能一本正經地給你解釋笑點在哪裡。

隻不過麼，GPT4 也還沒到能通過圖靈的程度。

當然，這個功能并不隻是能解釋梗圖那麼簡單，它擁有無限的想象空間，比如：

在今天淩晨的官方直播視訊中，GTP 的開發人員示範了 GPT-4 可以識别他手繪的一張網頁草圖，并且根據草圖寫出網頁的前端代碼。

手繪的網頁草圖，非常抽象 ▼

GPT-4 給出的網頁以及代碼 ▼

雖然這個示例裡的網站非常簡單，但 GPT-4 的了解能力和創造力還是讓人覺得不可思議：

重要的不是它能不能做得很好，而是它能做到，這是一個質的飛躍。

甚至，目前已經有公司在搞這項技術的落地應用，打算把它和導盲服務結合起來。

這樣一來，盲人隻需要拍張照，GPT-4 就能立即複述出面前物品的資訊。

而在文字問答方面，GPT-4 也有非常大的提升，輸入字增加到了 2.5 萬。

在專業領域上的回答，特别是 “ 問題複雜度足夠高的時候……GPT-4 比老版本更細、更可信、更富有創造力 ”。

比如，在統一律師考試（ Uniform Bar Exam ）中，GPT-4 可以超過 90% 的人類考生，而老版本隻能超過 10% 的人類考生，妥妥學渣學霸的差別。

在 GRE 數學和國文

（閱讀與填空）考試中，GPT-4 的考試成績已經是哈佛、麻省理工、斯坦福大學生的水準了。

不僅自己回答問題能力變強了，GPT-4 還會人格扮演。

比如你提出一個問題，ChatGPT 隻會機械式地回答，而 GPT-4 可以按你的要求以蘇格拉底風格給你作答。

那這個玩法就多了呀。

向下滑動▼

不過，說了這麼多，百聞不如一試。

即使已經是淩晨 2 點，編輯部依舊花重金（ 20 美元/月），連夜讓美國同僚幫忙更新試用了一波。

遺憾的是，OpenAI 考慮到使用者們搞幺蛾子的能力太狠，是以目前 GPT-4 的圖檔輸入功能暫時不對公衆開放，也沒有說啥時候可以用上。

不過，我們還是可以試試它聰明的小腦瓜子。

先是給了一個全網瘋傳的“ 華為、阿裡入職面試題 ”，挑戰大獲成功。

而隔壁的 ChatGPT 就有點拉了。

作為擊敗了 90% 人類的大律師，GPT-4 的推理能力應該強無敵吧。

是以我們又搞了道法考的經典案件，想掂量掂量 GPT-4 到底有幾斤幾兩。

問：乙去甲家吃飯，結果電動車被偷了。于是乙準備偷輛别人的電動車，此時，喝醉的甲來幫忙撬鎖，幫乙成功得手。結果調查後發現，乙偷的是甲的電動車，問甲算不算是盜竊罪？

雖然新舊兩款結論都是正确的，但是舊版的解題過程，就有點亂來了。。

而在一些更需要 “ 創造性 ” 或是 “ 思考 ” 的問題，比如：

關于最近一次特斯拉投資者大會上 “ 實作全球可持續能源 ” 的計劃，你覺得是可行的嗎？為什麼可行？

GPT-4 的表現就更讓人吃驚了。

雖然 GPT-4 的知識庫停留在 2021 年 9月，并沒有覆寫半個月前的那場投資者大會，但它卻神奇地未蔔先知了。

而老版本 ChatGPT 的回答就遜色了很多，沒有條理，還有一堆車轱辘話，沒有建設性觀點。

随後，我們又問了一個行業思考相關的問題：

你如何看待全球的碳排放戰略，它能成功嗎？

老版隻能浮于表面籠統地給點泛泛的概念，而 GPT-4 的回答明顯次元更寬、思考更深，洋洋灑灑列了 10 點，更加細緻有條理，并且含有更多專業詞彙與内容，可以說幾乎完美地回答了這個問題。

上面這些，還僅僅隻是我們編輯部的試驗，在一些大佬們手上，GPT-4 令人恐懼的表現就更多了。

比如僅僅隻用了 60 秒，就做出了一款 Pong 遊戲，20 秒就能做出貪吃蛇遊戲。

不可否認，GPT-4 比起舊版來說，強的不是一點半點。不過我們試出來的問題，其實也不少。

我們搞了套高中數學競賽試卷來考它，結果，一試就尴尬了。。第一道選擇題，新舊兩個版本就都解錯了。

難道說，斯坦福、麻省理工還不如。。？

因為 GPT-4 可以支援更長的輸入文本，是以我們就又測試了它的總結概括能力。

這下餡露得更大了。

我們甩給它的是，差評君之前發過的一篇文章的連結，其實 GPT-4 是沒有聯網的，正常來說是沒法總結的。

結果，它愣是憑空捏造了兩個文章總結，而且和我們給的文章沒有任何關系。

直到在我反複指正兩次，語氣都加重了，它才承認自己的錯誤。

直到後面我們把原文直接貼進去後，GPT-4 才展露了它超強的總結能力。

說實話，這個胡編亂造的能力讓我們心裡一驚，于是就又想了個測試方法。

前兩天，小黑胖把“ 手拿把攥 ”記混成“ 手拿把蒜 ”，被編輯部嘲笑了很久，于是我們就問 GPT-4 “ 手拿把蒜什麼意思？”

結果牛掰了，GPT-4在了解了一部分“ 把蒜（攥） ”是形容事情輕而易舉的基礎上，引經據典地胡編亂造，頗有種當年我寫作文時，引用的俄羅斯文學家“ 沃茲基索德 ”的味道了。

要知道，如果是真實場，這個半真半假、引用權威的胡說八道的後果将是非常嚴重的，堪稱最進階的謊言。

明明連更老的 ChatGPT 也不敢這麼捏造來源地胡說，更進階的 GPT-4 怎麼會這樣呢？

我們猜測，就是因為新版本更傾向于表現出 “ 更具有深度思考 ”，這麼一來，在回答很多問題的時候，GPT-4 會自己給自己加戲，才會出現這些鬧劇。

雖然我們試了這麼多漏洞，但總的來講，這次釋出的 ChatGPT，無論是基礎功能、想象空間、邏輯能力、思考能力，都比之前強了一大截。

明明距離老版本 ChatGPT 颠覆我們的認知才沒幾個月，它們就又掏出了一個船新版本，我們隻能說：恐怖如斯。

更恐怖的是，其實 GPT-4 誕生時間，可能比我們想的還要早很多，之前 OpenAI 釋出基于 GPT-3.5 的 ChatGPT 時，内部員工就質疑過為啥發個這麼古早的版本。

而我們也早就接觸過 GPT-4 了，New Bing 官方今天發了個公告，承認了 New Bing 其實就是 GPT-4。

是以這麼說的話，有沒有種可能，GPT-5 也已經近了呢？

我已經開始期待除了文字、圖檔以外，視訊、音頻等形式的輸入了。