天天看點

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

作者:差評
上手了刷屏一天的GPT-4o,我感覺目前也就那樣

沒有所謂的 AI 搜尋引擎,也沒有炸裂的 GPT-5 ,但 OpenAI 還是讓大夥兒感受到了,什麼叫做 “Only OpenAI Can Do” 。

就在今天淩晨, OpenAI 的春季釋出會終于是來了。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

他們也沒多講幾句廢話,整場釋出會就二十來分鐘,其中,最重磅的無異于 GPT-4o 新模型的釋出。

關于 GPT-4o 起名的緣由, OpenAI 官方是這麼解釋的: “ o “ 的全稱是 “ omni ” ,也就是 “ 全能 ” 的意思。

之是以說它全能,是因為它能把文本、視覺、音頻全打通了。換句話說,你跟 GPT-4o 對話就跟真人似的。

最重要的是, GPT-4o 是免費向使用者開放的,不開 Plus 會員也能用,隻不過 Plus 會員要多一些使用次數。

反正跟世超一起蹲守直播的同僚們看了,都直呼想要。。。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

就連奧特曼也在推特上毫不避諱地,把 GPT-4o 跟科幻電影《 Her 》聯系起來。( 這部電影講的是人和 AI 語音助理談戀愛的故事 )

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

評論區的網友們也紛紛表示 “ 見證曆史 ” “ 電影終于要照進現實了 ” ,甚至還用奧特曼的照片,整出來了個 “ him ” 。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

玩笑歸玩笑,但世超覺得, OpenAI 這次 GPT-4o 的現場示範效果,特别是實時語音和視訊互動的能力,确實甩了其他現役大模型好幾個車尾燈。

不過光這麼說,大夥兒對 GPT-4o 的感受可能也不深,咱直接來看示範。

像示範人員讓 GPT-4o 從一數到十,中途就嫌它語速太慢了,讓它說快點兒, GPT-4o 能立馬反應過來,後續随時插話它都能瞬間 get 到。

就這一個接一個的連續對話實力,說實話世超還沒在 AI 身上體驗過。

給 GPT-4o 一個麥克風和攝像頭權限,它能分分鐘化身成面試指導官,比方視訊裡的這個老哥,說自己要去 OpenAI 面試,讓 GPT-4o 給點着裝建議。

它迅速 “ 打量 ” 了下這位老哥,禮貌不失幽默地給出了 “ 抓個頭發 ” 的中肯建議。但老哥打算走個不聽勸的人設,順手拿出個帽子,問能不能戴它去面試。

GPT-4o 這邊反應賊快,識破了老哥明知故問地惡作劇,順着他的話茬說,也不是不行,最起碼能讓你在人群中脫穎而出。

如果不給世超看示範畫面,光聽聲音我可能會以為,這就是兩個朋友之間在開玩笑。

當然,以 GPT-4o 的知識儲備和多模态能力,它也有相當正兒八經的應用場景。

一扭頭,就能直接化身成視障人士的眼睛,幫他們識别所在的位置,要是想知道眼前都有啥場景, GPT-4o 也能夠繪聲繪色地描繪出來,甚至還能一步一步指導視障人士打車。

再搖身一變, GPT-4o 還能化身成數學老師,把螢幕的權限開放給它,它能一步步指導你做題,你在題目上寫了啥畫了啥 GPT-4o 也都能看得一清二楚。

有一說一,這跟世超上中學時爸媽請的家教沒啥兩樣。。。

看完官方的案例視訊,相信大夥兒跟世超一樣,已經被震撼得沒邊兒了。

而為了做到這些, OpenAI 在底層的模型上可是下了不少苦功。

之前咱們用 ChatGPT 的語音對話,都是一輪一輪的來。它得先把咱說的話轉換成文字輸給 GPT-4 ,等 GPT-4 生成文字答案之後,才能再轉成語音輸出。

也就是說,以前和 ChatGPT 語音對個話,它得動用三個模型,一個管音頻轉文本,一個 GPT-4 管文本轉文本,另外還有一個管文本轉音頻。

一整套流程下來,耐心都快給磨沒了,而且中間除非咱們手動暫停,否則根本沒插話的機會。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

但 GPT-4o 不一樣,它是一個原生的多模态模型,無論文字音頻,還是視訊啥的,所有的輸入和輸出都在同一個神經網絡裡處理。

這種打娘胎裡自帶多模态的特性,讓 GPT-4o 能夠聽懂好賴話,表達自己的情緒,和它對話也能像吃了德芙一樣絲滑。

不過,上面那些視訊終歸還是 “PPT” ,沒到手實測一波,世超也不敢輕易下定論這玩意兒是不是真的有這麼強。畢竟前段時間, Sora 生成的《 氣球人 》短片才被傳出加了大量的人類後期。

而在實際用這塊, OpenAI 還是一如既往的狗,嘴上說 GPT-4o 都能免費用,但也要分先來後到,而且功能也慢慢開放。

現在能用上 GPT-4o 的隻有 Plus 賬号,而且最重磅的實時視訊和語音功能,毛都看不着。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

但有總歸比沒有強,世超手邊恰好也有個 Plus 賬号,而且官方也說了, GPT-4o 生成的速度還會比 GPT-4 快上兩倍。

是以咱這波,就先提前給差友們試試 GPT-4o 的實力。

先讓它給咱講一個童話故事,順便再畫出整個故事的分鏡圖。GPT-4o 沒猶豫幾秒,庫吃庫吃就開始寫了。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

寫完中間也沒帶停頓,直接開始畫分鏡了。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

而同樣的問題再抛給 GPT-4 ,它一開始就得磨蹭半天在問題上。。。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

講清楚要求後才肯繼續寫,而且寫完之後也不繼續畫分鏡圖,還得等世超我再親自強調一波。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣
上手了刷屏一天的GPT-4o,我感覺目前也就那樣

不過雖然 GPT-4 比 GPT-4o 墨迹了不少,但從内容來看,我還是會覺得 GPT-4 會更豐富一點。

再借我司老員工火鍋的照片一用,分别讓 GPT-4 和 GPT-4o 生成一張像素風的圖檔。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

在生成速度上 GPT-4o 完勝,但要摳細節的話兩個就半斤八兩了。

GPT-4 識别出了火鍋嘴裡叼着的是袋子, GPT-4o 多識别出了一隻拖鞋,非要比的話,其實 GPT-4 的金毛更像火鍋一些。。。

( 左邊 GPT-4 ,右邊 GPT-4o )

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

接着,我又讓 GPT-4o 把咱差評的 LOGO 換成 3D 圖檔,結果它整出來字,翻遍整本新華字典,估計都找不到。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

但不識漢字也是曆代 ChatGPT 的老毛病了,換成英文再要求它,你别說,這次出來的整體效果還可以,就是經不起細看,不少英文拼寫都是錯的。。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

整個上手試下來, GPT-4o 給我最大的印象就是快,非常快。

但說實話,除了快,世超真沒覺得有啥特别的了,與其說 GPT-4o 是 GPT-4 的智商進化版,倒不如說是把 GPT-4 的互動能力單拎出來強化了一波。

就像奧特曼在部落格裡提到的, “ 達到人類響應時間和表達水準 ” 是 AI 的巨大變化。大模型的終極形态,也應該是讓人和 AI 的交流回歸到最原始、最簡單的形态。

在未來,咱們面對一台電腦、一部手機,直接說話交流,就是最主要的互動方式。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

不過這次 GPT-4o 最厲害的殺手锏:視訊交流功能,還沒放出來,等到時候咱能體驗到了再下結論也不遲。

另外,網友們也沒幹坐着,也在各種研究 GPT-4o 的,結果,卻扒出了一些番外的料。。。

也不知道 GPT-4o 的中文語料庫是哪兒來的,裡面有不少的釣魚網站的違禁詞,像什麼 “ 日本 x 片免費視訊 ” 這類的。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

給人老外都整無語了。。

上手了刷屏一天的GPT-4o,我感覺目前也就那樣

像這樣的樂子,以後指不定還要冒出來不少。但言歸正傳, GPT-4o 的出現确實又給 AI 開了個新副本。

按照之前 ChatGPT 問世之後,其他友商步步緊逼的尿性。世超盲猜,在 GPT-4o 之後,類似的 “Claude-o”“Gemini-o” 應該很快就會出現。

剛好明天就是谷歌的 I/O 了,咱們也淺淺期待一手好吧。