Google“絕地反擊”OpenAI新模型GPT-4o

昨天被OpenAI的最新多模态大模型GPT-4o搶盡了風頭，今天谷歌在I/O開發者大會上做出“絕地反擊”，産品更新處處對标OpenAI。

會前，谷歌上傳了一個視訊在自己的官方推特上，内容是一個人将手機鏡頭對着I/O舞台與Gemini聊天。

當被問到在鏡頭裡看到了什麼時，Gemini回答道：“看起來人們正在為一場大型活動做準備，也許是一次會議或示範。有什麼特别的東西引起了你的注意嗎？”

當被要求分析舞台上顯示的字母含義時，Gemini說這些字母代表谷歌I/O，随後根據新的提示，Gemini表示表示它很高興在大會上了解人工智能的新進展以及它們如何在日常生活中幫助人們。

它流暢、類似人類的說話語氣，和對周邊環境的識别能力，都讓人不得不想起昨天才推出的GPT-4o。

和GPT-4o一樣，這應該隻是最新Gemini的内測版本，還未向公衆開放。GPT-4o目前也隻向使用者提供文本和圖像功能，實時語音模式會在來幾周内推出。

稍後在大會上，谷歌展示了其語音AI助手Gemini Live和多模态AI項目Project Astra，這兩個項目可能為新的Gemini提供了技術支援。

Gemini Live支援實時互動，使用者可以随時打斷和聊天機器人的會話。通過和Google Lens內建，它支援使用者通過錄制和解說視訊進行網絡搜尋，充分利用了其大上下文視窗的優勢，使使用者能夠迅速通路大量資訊，進而使與AI助手的互動更加自然和順暢。

Gemini Live将提供10種語音選項，會在今年晚些時候上線，屆時Google會将Gemini Live開放給Gemini Advanced訂閱者。

Project Astra由谷歌DeepMind實驗室負責人代米斯·哈薩比斯（Demis Hassabis）上司，他設想Astra将是一個随時待命的全能助手，類似于《星際迷航》中的虛構通訊器或電影《她》中的聲音，無處不在。

巧合的是，昨天OpenAI的首席執行官薩姆·奧爾特曼（Sam Altman）在推特上也将GPT-4o比作電影《她》。

Astra設計為可以實時操作，通過對話方式回答問題或協助完成任務，支援多種互動方式，包括語音、文字、繪圖、攝影和視訊。

在展示視訊中，Astra幫助谷歌倫敦辦公室的員工找到裡他丢失的眼鏡，并對白闆上的代碼進行了檢查等等，這一切實際上都是以對話的方式實時進行的。

這還不算最“針鋒相對”的，在大會上，谷歌首席執行官桑達爾·皮查伊（Sundar Pichai）和一衆高管們不停的在演講中強調“我們的Gemini在誕生之初就是按照多模态路徑去打造的”，似乎是在“狠狠打臉”剛推出首個多模态大模型GPT-4o的OpenAI。

當然，谷歌對旗艦AI模型Gemini也進行了更新。最新版Gemini 1.5 Pro将添加更大的上下文視窗，從之前最多支援100萬個token到後續将能夠處理200萬個token。

Gemini 1.5 Pro 于二月份推出，是一款專為跨任務擴充優化的中型多模态模型（mid-size multimodal model），配備了能夠支援128,000 個 token 的上下文視窗。通過 AI Studio 和 Vertex AI，一小部分開發者和企業客戶可以使用100萬個token的擴充上下文視窗。這意味着Gemini 1.5 Pro最多能夠一次性處理 1 小時的視訊、11 小時的音頻、超過 30,000 行的代碼庫，或分析超過 700,000 個單詞的文檔。

速度更快，效率更高也更便宜的的Gemini 1.5 Flash也在此次大會上被推出。Gemini 1.5 Pro起始價格為7 美元/100萬token， Gemini 1.5 Flash起始價格為0.35 美元/100萬token。

今天開始，開發者可以通過Google AI Studio 和Vertex AI對Gemini 1.5 Flash進行試用。

谷歌表示，Gemini 1.5 Pro将很快在Workspace的側面闆中提供，實作跨應用程式的工作流程自動化。

Gemini還被引入谷歌相冊。在新功能“Ask Photos”的幫助下，使用者可以直接通過聊天機器人查詢照片，而無需再手動翻閱成千上萬張照片。例如，如果你想知道自己的車牌号碼，隻需問Gemini：“我的車牌号是多少？”而無需輸入關鍵詞“車牌”并浏覽所有相關照片。Gemini将智能地識别并提取屬于你的車輛的車牌号碼。這項功能計劃在今年夏天晚些時候向所有谷歌相冊使用者推出。

在此次AI模型産品線的更新中，還包括将在六月推出新一代開放AI模型Gemma 2。這個基于新架構建構的模型具有270億參數，在性能上優于比它大兩倍的模型，并且可以在Vertex AI中的單個 TPU 主機上運作。此外，谷歌還推出了Gemma系列中的首個視覺語言模型PaliGemma。值得注意的是，今年早些時候推出的Gemma模型僅包含20億參數和70億參數的版本，這次的更新顯著擴大了模型的規模和能力。

LearnLM，一個基于Gemini并針教育研究做了微調的模型，也在大會上被推出。

還有對标Dall-E 3的新圖像模型Imagen 3，号稱具有“令人難以置信的細節水準”，可實作逼真且AI痕迹更少的圖像。

（由Imagen 3生成的圖檔）

在OpenAI展示文本轉視訊模型Sora三個月後，谷歌推出了競争産品Veo：它支援多種視覺和電影風格，能夠生成超過一分鐘的高品質1080p分辨率視訊。

Veo号稱擁有進階自然語言了解功能，能夠精準了解包括“延時攝影”和“空中景觀鏡頭”在内的電影專業術語。

在這次Google I/O開發者大會上，AI依舊是所有話題的中心，幾乎每一個功能更新都與AI緊密相關。例如，Gemini繼續優化谷歌搜尋；Gemini與Gmail的更緊密內建；類似于微軟的Copilot辦公助手的Gemini AI Teammate；安卓手機将引入更多的AI服務等。

從本次釋出會的展示來看，谷歌和OpenAI之間的差距似乎正在逐漸縮小。兩家公司不僅在技術層面進行了激烈的角逐，也在推動AI應用于更廣泛場景的能力上各顯神通。很難說誰是最終的赢家，但我們确定的是競争将促使兩者不斷創新，推出更多前沿技術和解決方案。

會議的最後，被網友戲稱為“劈柴哥”的首席執行官幽默地提到，他替大家數了數，這次釋出會一共提到了120次AI。

Google“絕地反擊”OpenAI新模型GPT-4o

繼續閱讀

訊飛星火大模型賦能，開啟虛拟人“全新意識”

聊聊OpenAI最新釋出的GPT 4o

當開源遇到大模型，将産生怎樣的變革？

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！

傳清華系大模型公司高層變動

58同城孫啟明：生活服務垂類大模型怎麼搭？自研+開源兩手抓

AI天玑全量推送國内首個端到端大模型量産上車小鵬開啟AI智駕時代

大模型價格普降，網際網路式“地盤争奪戰”再現大廠真的會虧錢嗎？

中國大模型資本往事：20位大模型局中人走上“生死牌桌”

AI大模型價格戰開打，一年決勝負？

百度首款文心大模型學習機 Z30 開售，8G +256G 售 6694 元

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

OpenAI前董事揭示奧特曼罷免内幕：董事會是從X上知道ChatGPT已釋出的

全是“自己人”！OpenAI緊急成立“安全委員會”，距離“超級對齊”團隊解散不到半月，90天後将迎首次安全“大考”

OpenAI陷史上最大公關危機，掌門人奧特曼捐出一半身家幫公司渡難關

大模型競賽，中美科技巨頭為何卷向不同方向？