天天看點

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

作者:量子位

衡宇 發自 凹非寺

量子位 | 公衆号 QbitAI

好啊,不愧是OpenAI最新旗艦,打開各個社交軟體,GPT-4o的上手測試都唰唰唰往我首頁推。

請!看!

這,就是用上GPT-4o,花不到30s時間,通過單個prompt把一個電子表格中的内容生成了完整的圖表和統計分析。

在過去,在Excel裡做這玩意兒,不得花咱打勞工好一陣子時間?

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

而下面這張圖,是網友花了不到20s,用GPT-4o建立出的一張四腿桌子的3D模型的STL檔案。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

牛哇牛哇!

畢竟GPT-4o能力橫跨聽、說、看,主要是,它還免費啊!

就跟網友總結的一樣,現在,每個使用者都可以通過AI和簡單的Prompt來生成非常了不起的東西。

不過,關于“如何生成複雜結構的東西”,還需要再摸索摸索。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

一起來看,網友們都在怎麼忘我地狂玩兒GPT-4o吧——

狂玩GPT-4o

在一年一度的谷歌 I/O 開發者大會前24小時,OpenAI突襲釋出了GPT-4o。

“o”是Omni的縮寫,意為“全能”。

敢起這麼個名字,是因為GPT-4o接受文字、音頻、圖像的任意組合作為輸入,并生成文字、音頻、圖像輸出。

在5月14日的OpenAI官方示範中,用起來非常絲滑,甚至響應音頻輸入的速度趕上了人類。

抱着“我不信除非我試試”的态度,網友已經玩瘋了。

愛因斯坦謎題

先聲明,這個所謂的“愛因斯坦謎題”,很像咱小時候做的奧數題,是用來測試大模型邏輯能力的。

題目背景是這樣的:

在一條街上,有五座房子,噴了五種顔色。每座房子裡住着不同國籍的人。每個人喝不同的飲料,抽不同品牌的香煙,養不同的寵物。

提示:

(1)英國人住紅色房子。

(2)瑞典人養狗。

(3)丹麥人喝茶。

(4)綠色房子在白色房子左面隔壁。

(5)綠色房子主人喝咖啡。

(6)抽Pall Mall香煙的人養鳥。

(7)黃色房子主人抽Dun Hill香煙。

(8)住在中間房子的人喝牛奶。

(9)挪威人住第一間房。

(10)抽 Blends香煙的人住在養貓的人隔壁。

(11)養馬的人住抽Dun Hill香煙的人隔壁。

(12)抽 Blue Master的人喝啤酒。

(13)德國人抽 Prince香煙。

(14)挪威人住藍色房子隔壁。

(15)抽 Blends香煙的人有一個喝水的鄰居。

問題來了,誰養魚?誰住藍色房子?

前幾天,網友在lmsys測試i-am-gpt2-bot(就是在大模型競技場大殺特殺的神秘GPT-2)時,還沒辦法解答愛因斯坦謎題——而且也沒有任何其他AI可以搞定這個問題。

但上手一試,GPT-4o光速回答對了。

大家可以自己動手測一下(手動狗頭)。

自動選股器

前腳剛看到OpenAI說了,GPT不能用來選股,沒有啥參考意義。

後腳就有網友在推特上釋出了實作的GPT-4o自動選股器,并配文:強得可怕!

具體來說,他用GPT-4o實作了将兩百多行選股名額自動改寫成自動選股器、輸出圖表和資料歸檔。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

△AI生成内容,不代表任何投資建議

而且隻需1輪互動就能完成較為滿意的效果,效率暴打GPT-4(哦?我揍前代我自己)

據他說,用GPT-4搞這玩意,需要反反複複修改,而且處理100行以上的代碼非常低效。

對此,網友的評價非常精辟:

如果能100%預測那真的是完美!但如果預測不對那不如别預測……

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

紙質原型轉錄初始HTML

也有網友嘗試利用GPT-4o,把寫在紙上的原型轉錄為電腦内的初始HTML。

他白紙黑字是這麼寫的:

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

然後把這張圖喂給了GPT-4o。

然後GPT-4o說:

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

然後就得到了:

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

網友本人對吐出的這個結果非常滿意,他激動地在推特寫下:

就像我們正在進行一場超越世界的對話,這真是Soooooo Cool~
GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

不止他一個,另外有網友在Hacker News上表示,自己也能用GPT各個版本将原始動态資料動态轉換為漂亮的HTML布局。

這樣來制作低流量頁面,如更改/稽核日志,能節省大量的開發時間,還能在資料結構發生變化時保持HTML更新。

不過嘗試并不是回回奏效,因為GPT-4-Turbo有時幾乎完全忽略了上下文和說明。

OCR

不過,有網友表示對GPT-4o的OCR能力也有點牛氣在身上的

事情是這樣的,他扔給了GPT-4o一張這個圖。

怎麼說呢,确實密密麻麻,公司Logo又有圖像又有文字,人類肉眼看都有點吃力。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

GPT-4o的結果把測試者本人驚到了,他說:“它不斷吐出連人類都難以識别的圖中的内容。”

圍觀網友紛紛跟帖留言,不外乎是“将來,使用它的人和不使用它的人之間的工作似乎會有很大的差別”“如果您跟不上先進技術,您就會落後”之類的話。

拳打Google,但被馬斯克腳踢?

OpenAI出手再次驚豔世界,谷歌果然坐不住了。

在今日淩晨的釋出會上,谷歌帶來了Project Astra,它家的最新大模型産品。

和GPT-4o一樣,Project Astra能寫會聽會看會說,也能幾乎沒有延遲地和人類暢快交流。

不過英偉達科學家Jim Fan老師率先出來點評了一番:

首先,谷歌看起來似乎是多模态輸入,但不是多模态輸出。

谷歌旗下的圖像生成模型Imagen-3以及音樂生成模型仍然作為獨立元件,沒有融合到當中去。

他提到自己的觀點,那就是融合所有模态于一體是不可避免的未來趨勢,當然了,還有一些他認為不可缺失的細節,具體如下。

  • 啟用諸如“使用更機械化的聲音”“說話速度加快2倍”“疊代編輯此圖像”和“生成一緻的漫畫”等任務選項;
  • 不會丢失跨模式的資訊,例如情感和背景聲音。
  • 開辟新的上下文功能,您可以教模型通過少量示例以新穎的方式組合不同的感官。

對比之下,GPT-4o做得不是完美,但大體上是正确的。

而谷歌呢?

Jim Fan老師不愧是老沖浪選手了,他說,谷歌做對的一件事是,“他們終于開始努力把AI內建到搜尋框中”。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

還有網友真上手了谷歌新鮮出爐的Project Astra,發了個橫向評測視訊:

内容我們聽了,大體是說,他個人感覺谷歌釋出會上的Demo展示環節不太好,他自己和另外三個人去攤位試玩了Project Astra,也隻能玩兒2分鐘左右。

玩下來的感受,就是大寫的“谷歌打的是沒準備好的仗”。

排在他前面的測試玩家讓Project Astra對着一個事物講一個故事,Astra信誓旦旦答應說好,然後就沒有然後了……

不過讓Astra識别畫出來的帆船和笑臉,它還是能夠勝任的。

相比較而言,他認為GPT-4o更絲滑,不過因為他還沒自己上手過GPT-4o,是以不多妄作評價了。

大家的試玩狂歡中,還有一個戲劇性的事情。

那就是馬斯克旗下大模型公司xAI的Grok,正确回答了Ilya離開公司的問題。

而OpenAI自己的大模型未能提供正确響應。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

網友故意鄭重其事地宣布:

突發事件!xAI的Grok 1.0擊敗OpenAI新推出的GPT-4o。

當然了,這必須歸功于xAI背後擁有推特(X)上的實時資料/文章/新聞,沒有什麼比這更快、更豐富、更真實了。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

還有個有意思的是,Hacker News上大家發起了一個神奇的讨論。

有人亮出了一個連結,跳轉的是一個2021年釋出的打油詩資料集Needle in a Needlestack(隻能說世界之大無奇不有),稱他堅信GPT-4o訓練時,用了裡面的資料,

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

事情的起因是這樣的——

Needle in a Needlestack用于衡量大模型對上下文視窗中的資訊的關注程度,包含數千首打油詩的提示,該提示詢問有關特定位置的一首打油詩的問題。

簡單來說就是一個有點意思版本的大海撈針。

不過目前而言,還沒有誰家的大模型在這個測試中表現驚豔。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

然而,GPT-4o卻取得了突破!

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

這是一個接近完美的表現。

于是網友就開始激情讨論,OpenAI做了啥,讓GPT-4o的表現從GPT-4-Turbo大幅躍升。

最主要的觀點就如貼主所說,絕對是OpenAI用了Needle in a Needlestack來訓練自己,不然資料集背後團隊出來解釋解釋,是怎麼檢查并確定資料集沒有被任何大模型用來作訓練呢?

當然了,也有人發出了此前已經有的聲音(我們在3月參加月之暗面釋出會,以及采訪上海人工智能實驗室的領軍科學家林達華都聽過類似的發言):

大海撈針測試對模型實際的長上下文功能的了解非常有限。

它之是以被廣泛使用,是因為早期的模型在這方面表現很糟糕,而且很容易測試。

事實上,大多數最新模型現在在這一項任務上做得相當不錯。

不過這次多了一點資訊增量,不少人認為,大模型在執行超過32k tokens的長上下文時,進行任何複雜操作的能力都會大幅下降。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

最後話說回來,OpenAI真的是人幹事?

在谷歌 I/O 開發者大會前貼臉輸出GPT新功能,等谷歌釋出會結束立馬又帶來了重磅消息,沉寂半年之久的OpenAI首席科學家Ilya,真的如衆人猜測那樣官宣離職。

好消息:

Ilya還活着。

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

壞消息:

谷歌,你是一點流量都攤不上啊……

GPT-4o成全球網友新玩具,網友:谷歌你是一點流量攤不上啊

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态

繼續閱讀