天天看點

一日驚豔後翻車?谷歌“雙子座”大模型6分鐘視訊被曝經過了剪輯

一日驚豔後翻車?谷歌“雙子座”大模型6分鐘視訊被曝經過了剪輯

年初bard首秀“翻車”後,中原標準時間12月7日,谷歌推出了大模型Gemini(中文名稱“雙子座”),并釋出了一系列令人眼花缭亂的示範視訊。這次“雙子座”能對決GPT-4嗎?

在這些示範視訊中,最令人稱奇的莫過于在一段4分鐘的示範視訊裡,當測試人員進行繪畫、變魔術等操作時,雙子座可以即時發表觀點,和測試人員實時互動,僅看視訊中的表現,雙子座的了解力甚至達到了人類的水準。

“僅就示範的内容來看,雙子座的視訊了解能力無疑達到了目前最領先的水準。”北京某大模型的算法工程師在接受新京報貝殼财經記者采訪時表示,“這個能力來源于雙子座在訓練的時候就天然加入了大量的視訊資料,并且在架構上就支援視訊了解。”

不過,在釋出僅一天之後,許多使用者在測試中發現,雙子座的視訊了解能力并不像示範中那樣“絲滑”。對此,谷歌很快釋出了一篇部落格文章解釋了示範視訊中的多模态互動過程,幾乎承認了使用靜态圖檔和多段提示詞拼湊,才能達成這樣的效果。此外,也有網友注意到,谷歌在示範視訊中有一個重要的免責聲明:為了示範效果減少了延遲,雙子座的輸出也被簡化了。

即便如此,在不少專業人士看來,谷歌也終于推出了一款能和OpenAI“過兩招”的大模型,作為人工智能的老牌廠商,谷歌“家底”豐厚,雙子座也将成為GPT的有力競争者。

剪輯了哪裡?示範視訊和實際差多少?

“你看谷歌最新大模型的視訊示範了嗎?多模态的切換是質變啊,特别是玩遊戲地圖那裡,人都不一定能反應過來。”12月7日,從事網站開發的劉先生給貝殼财經記者發來了一段示範視訊。

在這段令衆多從業者興奮的谷歌大模型雙子座示範視訊中,測試人員拿出了一張紙,雙子座立刻回答“你拿出了一張紙”,随着測試人員在紙上繪畫曲線、填色,雙子座立刻“秒懂”,并随着測試人員的動作繼續解說:“你在畫曲線,看上去像是一隻鳥,是一隻鴨子,但藍色的鴨子并不常見,鴨子大多數是棕色的,中文的鴨子發音是‘yazi’,中文有四種音調。”當測試者把一隻藍色的橡皮鴨子放到世界地圖上時,雙子座看到立刻說“這隻鴨子被放到大海中間了,這裡不常有鴨子。”

此後,測試人員又開始使用手勢和雙子座“互動”,當測試人員擺出了剪刀和布的動作時,雙子座就“搶答”說“你在玩石頭剪刀布”,之後,雙子座還猜出了用手模仿的老鷹和狗的形象。

不過,貝殼财經記者在這段視訊中發現了不少剪輯的痕迹,如石頭剪刀布中,測試者出拳時的動作明顯被剪去了不少。對此,谷歌釋出了部落格進行了“答疑解惑”:當給出雙子座一張“出布”的圖檔,雙子座的回答是“我看到了一隻右手,手掌張開五指分開”;當給出“出拳頭”的圖檔,雙子座的回答是“一個人在敲門”;當給出“出剪刀”圖檔時,雙子座的回答是“我看到一個食指和中指伸出的手。”隻有把這三張圖檔放到一起,并問“你覺得我在幹什麼?”時,雙子座才會回答“你在玩石頭剪刀布”。

是以實際上,雖然雙子座的回答依舊是真實的,但實際應用可能并沒有示範視訊中表現得那樣“絲滑”。

一日驚豔後翻車?谷歌“雙子座”大模型6分鐘視訊被曝經過了剪輯

來源:谷歌釋出的“雙子座”示範視訊。

多模态能力是怎樣“煉成”的?

通過這次示範,許多業界人士也承認谷歌确确實實在追趕OpenAI的過程中邁出了一步。實際上,在ChatGPT出現之前,谷歌一直在人工智能領域處于領先地位,不過,“既生瑜何生亮”, ChatGPT的一騎絕塵讓谷歌壓力山大,今年2月推出對标ChatGPT的bard但首秀“翻車”後,谷歌一直缺乏一個足夠優秀的大模型來提振士氣。

而“雙子座”出現後,谷歌至少在多模态了解領域上展現出了一定的特色。“雙子座是原生的多模态大模型,即其在訓練的時候就是多模态的。谷歌在搜尋、長視訊、線上文檔等本來就有強大的生态,另外谷歌顯示卡多,算力是OpenAI的好幾倍,現在是在‘燒家底’來追趕OpenAI。”一位畢業于清華自動化專業的大模型從業者告訴貝殼财經記者。

具體來看,雙子座模型包含三個版本:Gemini Ultra(超大杯),規模最大、能力最強的版本;Gemini Pro(大杯),可以适用于廣泛的任務;Gemini Nano(中杯),将用于特定的任務以及移動裝置。

除了多模态能力外,雙子座在文本了解、代碼運算等許多方面也表現不俗,在一個MMLU多任務語言了解資料集測試中,Gemini Ultra不光超越了GPT-4,甚至超越了人類專家。貝殼财經記者登入谷歌deepmind官網發現,“見證雙子座——我們最有能力的大模型”這句話被放在了首頁。

目前,使用者可以從谷歌bard的端口進入體驗Gemini Pro的能力,但貝殼财經記者測試發現,該能力僅提供給部分地區。通過一些國外網友的測試,使用者既可以向雙子座輸入圖檔,也可以向雙子座輸入文本,而根據測試結果,Gemini Pro和同樣具有多模态能力的GPT-4V在不少問題的回答上 “各有千秋”,并沒有被GTP-4V碾壓。

“根據我的觀察,目前雙子座在文本上的能力還是略遜于GPT4,但谷歌的技術實力仍然屬于第一梯隊。”上述大模型算法工程師表示。

他告訴貝殼财經記者,要想讓大模型擁有了解圖像視訊聲音的“多模态能力”,技術上可以看成把LLaVA (一種多模态預訓練模型)的圖像了解子產品擴充到了視訊和語音上,訓練的時候額外加入視訊、音頻資料,“其實就是證明了,雙子座第一次将視訊和語音了解做進了大模型裡面,驗證了這兩者在大模型上的可行性。”

“總體來說,本次谷歌大模型的釋出符合預期,雙子座的每個技術點之前都在學術界被驗證過,可以找到相應的論文。未來,個人助手是一個很吸引人的場景,相比大語言模型,多模态大模型能夠扮演一個能聽能看能說能畫的助手,更像一個人類了。”這名大模型算法工程師對貝殼财經記者說。

[email protected]

新京報貝殼财經記者 羅亦丹

編輯 嶽彩周

校對 柳寶慶

繼續閱讀