面對OpenAI的貼臉開大，谷歌選擇原地回擊。

今天淩晨1點（中原標準時間），谷歌在2024年I/O大會上放出大招——

更強的多模态Agent助手Astra，能實時了解鏡頭内外的世界。

多模态和長文本是本次釋出的關鍵詞，谷歌CEO桑達爾·皮查伊表示，多模态和長文本相結合，擴充了我們可以提出的問題類型，也擴充了我們可以得到的答案類型。

Gemini系列模型卷起了長文本，1.5 Pro的上下文視窗将擴充到200萬個token；新釋出的Flash是輕量級模型，定價每100萬個token35美分，遠低于GPT-4o 5美元的價格。

搭載了Gemini的谷歌家族産品也華麗更新：谷歌搜尋支援輸入視訊提問，還将上線“AI概述”的結果頁面；安卓系統手機内置AI助手，圖上畫個圈就能全局搜尋。

AIGC方面，更逼真的圖像生成模型Imagen 3釋出；全新的視訊生成模型Veo劍指Sora，可生成時長超60秒的高清視訊……

皮查伊稱目前有20億使用者在使用Gemini，Gemini時代剛剛拉開帷幕，谷歌希望最終讓AI造福每個人。

“頭号AI玩家”全程圍觀了直播，以下是我們梳理的本次主旨演講的要點。

多模态Agent來了，

Gemini精準打擊GPT-4o

衆所期待的Agent（AI智能代理）終于來了。

谷歌在I/O大會上分享了新項目Project Astra，一個不亞于GPT-4o的AI智能助手，可以像人一樣了解周遭的複雜世界，在日常生活中提供實時幫助。

比如在辦公室裡開着攝像頭轉一圈，AI能識别出畫面中的物品，解釋正在寫的代碼，判斷所在的地理位置。

示範視訊中，官方還展示了如何将Astra與AR眼鏡相結合，這也成為其中一個亮點。戴上眼鏡後，Astra的回答會實時顯示在眼前，比如幫助修改白闆上的流程圖時，會用箭頭指出修改位置。

不過，與昨天OpenAI推出的GPT-4o相比，後者在示範中展現了更多令人驚喜的情感豐沛的互動，雖然也有即刻網友評論，“感覺OpenAI想為每個人打造自己的專屬舔狗”。

此前谷歌剛釋出Gemini時，其多模态互動示範視訊還需要經過剪輯，如今釋出的Astra視訊特意強調了是“一次性實時拍攝的”。

Agent是一種智能系統，可以了解多模态資訊，提前規劃多個步驟，并代表使用者采取行動。從示範來看，Astra延遲低、反應快、互動自然，仿佛就是身邊的一個專家助理。

此外，谷歌還公布了Gemini系列模型的最新進展。

Gemini 1.5 Pro的上下文視窗将擴充到200萬個token，可以處理數百頁文檔，并向開發人員提供私人預覽版。

面向全球開發者開放的Gemini Advanced則提供長達100萬token的上下文視窗，支援超過35種語言。

Gemini Advanced将在幾周内上線新的資料分析功能，晚些時候還會增加旅行計劃功能，通過進階推理建立個性化的行程。

Gemini 1.5 Flash是新推出的輕量級模型，針對低延遲和低成本任務進行了優化，可以更高效率地部署。開發人員即日起可在Google AI Studio和Vertex AI中使用，上下文視窗可達100萬token。

Gemini的Gems功能将在今年夏天推出，類似于GPTs，可通過Prompt設定為不同專長的AI助理。

同時，作為原生的多模态模型，Gemini的語音和視訊能力迎來更新，即将上線的“Live”功能，其逼真程度可以說是對标GPT-4o。

你能與Gemini進行更深入的雙向對話，回答中可以随時打斷，打開攝像頭，Gemini就能看見和了解周遭發生的一切。看來AI頭号玩家們的理想AI助手都有電影《Her》的影子。

新增圖像視訊搜尋，

AI一鍵聯網總結

随着ChatGPT、Copilot等AI産品席卷全球，使用者擷取資訊的方式正悄然改變，本次谷歌的當家産品“谷歌搜尋”率先迎來了重大更新，內建了最新的智能代理助手。

在搜尋時，你可以通過視訊提問，比如錄一段視訊問道：“為什麼這個放不上去？”

Gemini能了解問題是視訊中的唱片為什麼不能固定在唱片機上，并迅速搜尋文章、論壇、視訊等全網資訊，給出解決辦法。

相比傳統的搜尋結果羅列，如今有了Gemini加持的谷歌搜尋還将上線全新的搜尋結果整合功能“AI概述”（AI Overviews）。

比如在現場示範中，當我們想要在波士頓找到最好的瑜伽或普拉提工作室，并在結果中顯示它們的入會優惠資訊，以及與住址的距離。

Gemini一次搜尋就能獲得所有資訊，并組織呈現出有條理的搜尋結果頁面。

據介紹，谷歌搜尋更新後支援多步驟推理功能，可以将大問題分解為若幹部分，并找出要解決的問題以及解決的順序，是以原本可能需要花費數分鐘甚至數小時才能得出的結果，現在可以在幾秒鐘内完成。

“AI搜尋概述”功能将在美國率先推出，未來将覆寫10億使用者。

此外，在手機端，谷歌相冊（Google Photos）即将推出的一項新功能“Ask Photos”。

在圖檔上畫個圈，就能搜尋指定的對象，比如搜尋帶有車牌号的照片，或者問問“最近女兒遊泳學得怎麼樣”，Gemini能了解複雜的語境，輕松找到對應的照片和視訊。

AIGC模型上新，

Veo可生成超60秒高清視訊

在圖像、音樂、視訊領域，谷歌都分别都釋出了新的模型或産品。

圖像生成

谷歌推出了迄今為止最高品質的文本到圖像生成模型Imagen 3，生成的圖像細節更豐富、更真實，而且能了解複雜文本提示。

Imagen 3生成

音樂生成

谷歌和YouTube共同打造了Music AI Sandbox，這是一套專業的AI音樂創作工具，可以幫助創作者從0開始快速創作。

視訊生成

谷歌釋出了最新的視訊生成模型Veo，隻需一個文本、圖檔或視訊提示，即可建立超過60秒的高品質1080p片段，支援多種電影風格，包括寫實主義、超現實主義、動畫等。或許未來每個人都會成為導演。

以上這些AIGC模型，目前都可以在labs.google上申請試用。

谷歌全家桶AI更新，

安卓手機搶先搭載AI助手

不出所料，更新後的Gemini 1.5 Pro将內建在更多的谷歌全家桶産品中，包括郵件、會議、文檔等軟體，以及手機等硬體裝置。

比如Gmail中的Gemini能一鍵總結郵件内容，自己不用去多個郵件、附件中查閱，Gemini會根據語境分析，還會給出回複建議。

向Excel中的Gemini提問，不用再費力編寫公式，AI會自動進行資料分析，以圖表形式給出計算結果。

對于以AI為核心的手機，谷歌提到了三個關鍵應用：AI驅動搜尋（上文提到的圖檔畫圈搜尋），系統自帶的AI助手（目前安卓系統可用），AI保護隐私和安全（提示詐騙風險）。

谷歌表示，今年晚些将拓展Gemini Nano的多模态功能，新增視覺、聲音、口語輸入，這意味着AI手機可以幫助更多視力障礙群體等使用者更好地交流和生活。

皮查伊近日在接受《The Circuit With Emily Chang》專訪時提到，在技術領域，如果你不持續創新以保持領先，那麼任何公司都将不可避免地走向衰敗。

自2016年起，人工智能便一直是谷歌公司的核心焦點，谷歌的研究人員發明了Transformer，也就是GPT中的T。那時，OpenAI開發的ChatGPT尚處于起步階段。

而到了如今的生成式AI時代，谷歌卻屢次被OpenAI搶了風頭，同時還面臨着微軟等競争對手的嚴峻挑戰。

從今年I/O大會主旨演講釋出了這麼多新模型和産品更新來看，谷歌仍在堅持AI First的戰略方向，無論是搜尋還是AIGC應用等，AI的前沿高地必有谷歌的位置。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

多模态Agent來了，

Gemini精準打擊GPT-4o

新增圖像視訊搜尋，

AI一鍵聯網總結

AIGC模型上新，

Veo可生成超60秒高清視訊

谷歌全家桶AI更新，

安卓手機搶先搭載AI助手

繼續閱讀

為了流量不擇手段！販賣悲傷、制造同情......短視訊的擺拍套路有多深？

小商販有暴力傾向，城管态度始終很好，原視訊我看了，咱有一說一

位元組跳動回應大模型訓練被實習生攻擊：已被辭退，不影響線上業務

籃球場女孩被男子踹飛倒地後續：警方介入，視訊曝光，評論區淪陷

以軍新視訊指辛瓦爾曾帶妻兒隧道避難，紙巾留下DNA洩露行蹤

微視訊｜金磚力量

太下頭！5秒視訊、虎狼之詞，“性凝視”在她身上展現得淋漓盡緻

李子柒強勢回歸！她人生坎坷，新視訊的内容有何變化？

中醫藥領域卷出多個大模型，“AI老中醫”來了？

出手即王炸？照片級真實度生成式世界模型，還獲得皮克斯投資

CBA最大混子球員？拿着600萬頂薪，缺席17場，不打比賽跑去拍視訊

新春紅包，點開就有！今視訊發紅包啦🧧

還沒結束！紅内褲女主删視訊、承認偷竊行為後，胖東來開始動手了

騰訊、華為等接入DeepSeek每月虧損超4億，MaaS模型即服務将要被颠覆了？｜钛媒體AGI

性趣機器人意外獲大模型賦能，成人用品概念股集體上漲，逆天了？

劉亦菲和華為副總裁的視訊爆火，暴露了男女關系的紮心真相