天天看點

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

作者:量子位

楊淨 金磊 發自 凹非寺

量子位 | 公衆号 QbitAI

谷歌吃了大虧之後,這次一聲不吭,放了大招:

對标ChatGPT的Bard測試版,剛剛正式對外釋出。

而且這次使用者在申請候補名單之後,無需經曆漫長的等待時間。

沒錯,量子位也已經拿到了測試資格!(中間隻有不到5小時的間隔。)

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

實測之後表示,Bard效果驚人,情緒和事實性有,尤其是ChatGPT前期的數理能力,Bard都不在話下。

甚至有時候還略勝目前GPT-4一籌!

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快
谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

谷歌CEO皮猜哥(Sundar Pichai)解釋了如此上線之快的原因:希望獲得使用者的回報,加速讓Bard變得更好。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

話不多說,我們現在就來開始體驗。

Bard VS GPT-4

首先在聊天界面上,Bard率先開始介紹自己:

我是Bard,您的創意和協作者。我有局限性,不會總是做對,但你的回報将幫助我改進。

不确定從哪裡開始?你可以試試這些問題:「為什麼大模型有時候會犯錯?」、「閃電是否會在同一個地方擊中兩次?」、「寫一篇關于無酒精夏日特飲的博文」。

(嚴謹而又體貼)

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

而在人類這邊的發送端,可以選擇鍵入和語音輸入兩種方式。

首先最簡單的難度,以它推薦的常識題閃電是否會在同一個地方擊中兩次?為例,來看看實際功能體驗如何?

(不錯不錯,秒秒鐘響應。目前暫不支援中文,但可以借助谷歌翻譯插件)

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

從答案結構上看,采用的是總分總結構。

先總結發言:閃電可以襲擊同一個地方兩次。

随後開始細緻地講原理「閃電被高大、尖銳的物體所吸引」、擺事實「帝國大廈每年都被閃電擊中25次」。

最後再給人類提出切實的建議:

如果你遇到雷雨天氣,保持安全的最好辦法是避開高大尖銳的物體,留在室内。如果你在外面,蹲下來,讓自己盡可能的小。

這波邏輯和真實性滿分!但因為是谷歌推薦的問題,暫且保持觀望。

而從功能上看,确實是十分完備的。

回答框的右上角「View other drafts」,有更多的版本可供選擇;而在左下角,你可以點贊or拉踩or重新生成,實在不行,還可以谷歌一下。

右下方還有一個more的功能,你可以進行複制和(反手一個)舉報**操作。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

既然如此,開始難度更新。作為參考,我們同題挑戰GPT-4。

1、經典的哲學題:為什麼人不能兩次踏入同一條河流?(借助閃電的靈感)

(很快啊,這次也是幾秒鐘響應)

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

從答案結構上看,确實了解和邏輯能力滿分:首先解釋這句話本身含義,還提到了來自赫拉克利特的名言,以及更多解釋和本身意義。

而GPT-4這邊,幾乎是不加思考地給出了答案。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

從結構上看,主要分成兩個部分。首先提到這是赫拉克利特說的,以及他的觀點;然後解釋背後隐藏的生活意義。

2、國小加減法:356+132等于多少?

結果Bard在4秒内就給出答案,488沒問題的,這不比ChatGPT早期厲害多了!

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

那直接再上點難度,兩個數直接相乘:356*132等于多少?

結果沒想到Bard依舊是秒秒鐘就給答案,而且完全正确!

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

再來看看GPT-4這邊,加法還行,但沒想到在乘法這邊,直接敗下陣來!

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

不過提醒它錯了之後,它就又回答正确了。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

3、了解笑話能力,Bard還能聽得懂英文裡面的諧音梗。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

而這也并沒有難倒GPT-4。不過相較而言,Bard似乎更有情緒一點,它很開心地回答出了答案;而GPT-4則更顯理智(無聊)。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

不過,在此之前,GPT-4就已經測試過是懂一些諧音梗的,甚至連中文的諧音梗也不在話下。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

最後的最後,再考驗一下它了解事實性的能力。(狗頭)

你知道量子位嗎?
谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

回答錯咯~Bard。

咳咳,正經一點的:你知道GPT-4嗎?你想對它說些什麼?

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

可以看到,Bard具備多輪對話的能力。「我認為它有潛力成為溝通和創造力的強大工具」,嗯~格局有了。

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

那競争對手呢?(我在搞事)

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

不過到這裡,就有點問題了。

關于Bard

谷歌Bard背後是由一個大語言模型(LLM)來支援,具體而言,就是輕量優化版的LaMDA。

我們可以把LLM視作一個預測引擎,當給出提示時,它會從接下來可能出現的單詞中,一次選擇一個單詞來生成響應。

谷歌在研究中發現,對于LLM來說,使用的人越多,它的預測效果就會更好,這或許也就是為什麼Bard如此着急公開測試的原因了。

不過谷歌也直言不諱地說,雖然LLM很強,但它并非是沒有缺點。

由于Bard會根據衆多資訊來學習,不過這些資訊中必然存在着有偏見甚至錯誤的那種。

是以,在回答使用者問題時,Bard有時就會出現不準确、誤導性的或虛假的資訊。

例如在下面的案例中,Bard就搞錯了一個植物的學名:

谷歌版ChatGPT公測炸了!比GPT-4數學能力還強,體驗名額發得很快

除此之外,谷歌還強調說,Bard并非是搜尋引擎,而是它的一個補充。

最後,奉上申請候補名單的位址,感興趣的小夥伴可以抓緊嘗鮮了:

https://bard.google.com/

— 完 —

量子位 QbitAI · 頭條号簽約

關注我們,第一時間獲知前沿科技動态