出品 | 微果醬(wjam123456)
作者 | 陳出木
最近一段時間,谷歌的AI大模型進展吸引了不少關注。
但在大家都搓着手,試圖等着看谷歌如何逆風翻盤的時候,AI大模型領域的霸主OpenAI再次傳來重磅消息。
根據外媒The Information的報道,OpenAI即将推出多模态模型GPT-Vision,文章标題毫不客氣地表明這是用來回擊谷歌的。
雖然新版本還沒有真正來,但是已經足以讓我們窺見這個賽道的下一階段競争重點——多模态。
01#“GPT-5”進展到哪一步了?
根據The Information的爆料,OpenAI正準備在GPT-4的基礎上推出圖像了解功能GPT-Vision。這相當于是在給GPT-4疊buff,擠牙膏式地完善它,反正目前公認的AI一把手還得是GPT-4。
此外,報道中還提到,OpenAI可能在GPT-Vision之後推出代号為“Gobi”的大模型。和GPT-4不同,所謂“更強大的”Gobi從一開始就是按照多模态模型去建構的。
外界把這個全新的大模型鎖定為GPT-5的有力候選,因為大部分人并不相信此前OpenAI的首席執行官兼聯合創始人Sam Altman在麻省理工學院活動中的辟謠:
我們現在沒有訓練,短期内也不會訓練GPT-5。
Sam Altman在麻省理工學院回應GPT-5傳聞
畢竟當時這段表态主要還是用來回應公開信《暫停AI巨型實驗》。3月29日,包括特斯拉CEO埃隆·馬斯克、蘋果聯合創始人Steve Wozniak、圖靈獎得主Yoshua Bengio在内的數千位科技界人士聯名呼籲,在6個月内暫停開發比GPT-4更為強大的AI系統,以留出時間解決AI的安全與倫理問題。
就在本月初,DeepMind聯合創始人、現Inflection AI的CEO Mustafa Suleyman在一次訪談中表示自己認為OpenAI正在秘密訓練GPT-5。Suleyman把多數人心裡的猜測擺到了台面上,壓力重新給到了OpenAI。
截圖自訪談節目《CEO of Inflection AI Mustafa Suleyman on risks of artificial intelligence》
不過現在談論GPT-5或許還是太早了,因為OpenAI至今沒有對相關消息作出回應。除了代号Gobi的全新大模型有可能是傳言中的GPT-5,其餘我們一概不知。甚至根據外媒消息,OpenAI似乎還沒有開始訓練Gobi。
相對來說,GPT-Vision的情況更加有迹可循。
目前有不少人猜測,GPT-Vision很可能是此前就在GPT-4的3月釋出會上示範過的多模态功能。當時的GPT-4僅根據一張簡單的手寫草圖就生成了網頁代碼,震驚全世界。
3月GPT-4釋出會上的示範過程
但在一時驚豔之後,除了提供給一家為盲人創造技術的公司Be My Eyes之外,功能更新和實際使用中都再沒有這方面的資訊,包括文生圖等功能。
其原因或許可以從《紐約時報》7月的一篇報道中推斷,OpenAI擔心該功能可能被濫用于面部識别等方面。再結合Sam Altman此前辟謠時提及的,“OpenAI正在解決公開信中忽略的基于GPT-4的各種安全問題。”相關的安全顧慮或許已經有了解決方式。
也意味着,這種屏蔽很可能要迎來放開了。
按照The Information的說法,OpenAI希望以“GPT-Vision”的名義更廣泛地提供圖像了解,将為GPT-4打開許多新的基于圖像的應用程式,例如生成比對圖檔的文本等。
同時,還有傳言稱DALL-E 3也在開發中,可能會內建到ChatGPT或GPT-4中。其與GPT-Vision都可能在11月6日的OpenAI開發者大會上公布,因為OpenAI首席執行官Sam Altman曾經如此說道:
将會有“偉大的東西”,盡管沒有GPT-4.5或GPT-5那麼大。
總的來說,雖然GPT-5還沒來,但GPT-4要發力多模态,新一輪AI重新整理科技觀的熱潮或許不遠了。
02#OpenAI和谷歌較上勁了
在這次對OpenAI新動作的報道中,中外媒體觀點出奇一緻,基本都認為是沖着谷歌的Gemini去的。
根據媒體9月14日援引三位直接知情人士消息稱,谷歌已向一小部分公司提供了Gemini的早期版本,通過公司的雲計算服務出售給企業,意味着谷歌考慮将其納入消費者服務,Gemini的釋出或許在即。
Gemini被稱為谷歌的集大成之作,從今年4月就一直隐隐有消息傳出,項目的參與者包括了原DeepMind創始人Demis Hassabis等大牛,谷歌創始人Segey Brin也親自加入對Gemini的訓練。
上個月底,SemiAnalysis的分析師Dylan Patel和Daniel Nishball曝光了更多相關消息。
根據現有資訊,我們能夠對Gemini有以下的認知:
1、初代Gemini應該是在TPUv4上訓練的,且選擇使用較少的晶片數量,以保證晶片的可靠性和熱插拔。目前其已開始在TPUv5 Pod上訓練,算力比訓練GPT-4的要大 5 倍。
2、Gemini的訓練資料庫為Youtube上93.6億分鐘的視訊字幕,總資料集大小約為GPT-4的兩倍。
3、Gemini由一組大型語言模型組成,可能使用MOE架構與投機采樣技術,通過小模型提前生成token傳輸至大模型評估,提高總推理速度。
4、Gemini支援聊天機器人、總結文本或生成原始文本(如電子郵件草稿、歌詞或新聞文章)、生成原始圖檔等功能。
5、Gemini支援幫助工程師編寫代碼,谷歌希望其提高開發人員的代碼生成能力,以追趕微軟的GitHub Copilot代碼助手,後者依賴于OpenAI。
6、谷歌員工還讨論過利用Gemini來實作圖表分析等功能,比如要求模型解釋圖表的含義,及使用文本或語音指令來浏覽網頁或其他軟體。
7、Gemini有不同大小版本,支援開發者購買簡化版處理簡單任務,足夠小的版本可以在個人終端運作。
值得注意的是,相比GPT-4,Gemini有一個優勢——除了網絡公共資訊外,還可以利用谷歌從其消費産品中擷取大量專有資料。是以,有相關人士認為:
該模型在了解使用者對特定查詢的意圖時應該會特别準确,而且它似乎會産生較少的錯誤答案(即幻覺)。
盡管Gemini還沒有真正登場,但已經有不少人表達了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中,也有類似的觀點:
The statement that may not be obvious is that the sleeping giant, Google has woken up, and they are iterating on a pace that will smash GPT-4 total pre-training FLOPS by 5x before the end of the year.(可能不太明顯的說法是,沉睡的巨人Google已經蘇醒,他們正在疊代,将在年底前将GPT-4預訓練總FLOPS提高5倍。)
我們可以發現,Gemini的每一項都在和GPT-4作比較,當然這是不可避免的情況。畢竟在ChatGPT橫空出世之前,手握AI利劍的還是谷歌。
是以大衆的共識都是——
The point here is Google had all the keys to the kingdom, but they fumbled the bag. (這裡的重點是谷歌擁有王國的所有鑰匙,但他們卻弄丢了袋子。)
基于此,谷歌也不得不更加努力,加速證明自己仍然能在AI一道上拿分。谷歌選擇直接偷家,趁着OpenAI還沒拿出真正的多模态模型之前,試圖搶先在高地插上自己的旗子。當然,OpenAI并不打算放任谷歌追擊,這也就有了此次的GPT-Vision和Gobi。
這也指出了下一階段AI競争的重點,便是各家正在内卷的多模态。畢竟文字形式的生成式AI已經毫無新鮮感,再智能也隻能屈居于ChatGPT的榮光之下。
不過,發展至今日,AI的戰場上已經不是兩軍對壘的局面了,谷歌和OpenAI不過是混戰中較顯眼的巨頭。
同樣需要盈利的這兩者都在大模型的項目中加入了商業化的部分,比如對企業方的政策。但另辟蹊徑的後來者Meta,走的是開源的路子,一直在不斷釋出新功能,主打一個量多還免費。
很難評,大家會不會為了成本而選擇Meta。
可以說,現在的AI混戰已經到了膠着的白熱化階段,下一個沖出來的會是誰,讓子彈再飛一會兒吧。