天天看點

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

作者:替代視訊共享細菌

面對OpenAI的貼臉開大,谷歌選擇原地回擊。

今天淩晨1點(中原標準時間),谷歌在2024年I/O大會上放出大招——

更強的多模态Agent助手Astra,能實時了解鏡頭内外的世界。

多模态和長文本是本次釋出的關鍵詞,谷歌CEO桑達爾·皮查伊表示,多模态和長文本相結合,擴充了我們可以提出的問題類型,也擴充了我們可以得到的答案類型。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Gemini系列模型卷起了長文本,1.5 Pro的上下文視窗将擴充到200萬個token;新釋出的Flash是輕量級模型,定價每100萬個token35美分,遠低于GPT-4o 5美元的價格。

搭載了Gemini的谷歌家族産品也華麗更新:谷歌搜尋支援輸入視訊提問,還将上線“AI概述”的結果頁面;安卓系統手機内置AI助手,圖上畫個圈就能全局搜尋。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

AIGC方面,更逼真的圖像生成模型Imagen 3釋出;全新的視訊生成模型Veo劍指Sora,可生成時長超60秒的高清視訊……

皮查伊稱目前有20億使用者在使用Gemini,Gemini時代剛剛拉開帷幕,谷歌希望最終讓AI造福每個人。

“頭号AI玩家”全程圍觀了直播,以下是我們梳理的本次主旨演講的要點。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

多模态Agent來了,

Gemini精準打擊GPT-4o

衆所期待的Agent(AI智能代理)終于來了。

谷歌在I/O大會上分享了新項目Project Astra,一個不亞于GPT-4o的AI智能助手,可以像人一樣了解周遭的複雜世界,在日常生活中提供實時幫助。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

比如在辦公室裡開着攝像頭轉一圈,AI能識别出畫面中的物品,解釋正在寫的代碼,判斷所在的地理位置。

示範視訊中,官方還展示了如何将Astra與AR眼鏡相結合,這也成為其中一個亮點。戴上眼鏡後,Astra的回答會實時顯示在眼前,比如幫助修改白闆上的流程圖時,會用箭頭指出修改位置。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

不過,與昨天OpenAI推出的GPT-4o相比,後者在示範中展現了更多令人驚喜的情感豐沛的互動,雖然也有即刻網友評論,“感覺OpenAI想為每個人打造自己的專屬舔狗”。

此前谷歌剛釋出Gemini時,其多模态互動示範視訊還需要經過剪輯,如今釋出的Astra視訊特意強調了是“一次性實時拍攝的”。

Agent是一種智能系統,可以了解多模态資訊,提前規劃多個步驟,并代表使用者采取行動。從示範來看,Astra延遲低、反應快、互動自然,仿佛就是身邊的一個專家助理。

此外,谷歌還公布了Gemini系列模型的最新進展。

Gemini 1.5 Pro的上下文視窗将擴充到200萬個token,可以處理數百頁文檔,并向開發人員提供私人預覽版。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

面向全球開發者開放的Gemini Advanced則提供長達100萬token的上下文視窗,支援超過35種語言。

Gemini Advanced将在幾周内上線新的資料分析功能,晚些時候還會增加旅行計劃功能,通過進階推理建立個性化的行程。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Gemini 1.5 Flash是新推出的輕量級模型,針對低延遲和低成本任務進行了優化,可以更高效率地部署。開發人員即日起可在Google AI Studio和Vertex AI中使用,上下文視窗可達100萬token。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Gemini的Gems功能将在今年夏天推出,類似于GPTs,可通過Prompt設定為不同專長的AI助理。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

同時,作為原生的多模态模型,Gemini的語音和視訊能力迎來更新,即将上線的“Live”功能,其逼真程度可以說是對标GPT-4o。

你能與Gemini進行更深入的雙向對話,回答中可以随時打斷,打開攝像頭,Gemini就能看見和了解周遭發生的一切。看來AI頭号玩家們的理想AI助手都有電影《Her》的影子。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo
比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

新增圖像視訊搜尋,

AI一鍵聯網總結

随着ChatGPT、Copilot等AI産品席卷全球,使用者擷取資訊的方式正悄然改變,本次谷歌的當家産品“谷歌搜尋”率先迎來了重大更新,內建了最新的智能代理助手。

在搜尋時,你可以通過視訊提問,比如錄一段視訊問道:“為什麼這個放不上去?”

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Gemini能了解問題是視訊中的唱片為什麼不能固定在唱片機上,并迅速搜尋文章、論壇、視訊等全網資訊,給出解決辦法。

相比傳統的搜尋結果羅列,如今有了Gemini加持的谷歌搜尋還将上線全新的搜尋結果整合功能“AI概述”(AI Overviews)。

比如在現場示範中,當我們想要在波士頓找到最好的瑜伽或普拉提工作室,并在結果中顯示它們的入會優惠資訊,以及與住址的距離。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Gemini一次搜尋就能獲得所有資訊,并組織呈現出有條理的搜尋結果頁面。

據介紹,谷歌搜尋更新後支援多步驟推理功能,可以将大問題分解為若幹部分,并找出要解決的問題以及解決的順序,是以原本可能需要花費數分鐘甚至數小時才能得出的結果,現在可以在幾秒鐘内完成。

“AI搜尋概述”功能将在美國率先推出,未來将覆寫10億使用者。

此外,在手機端,谷歌相冊(Google Photos)即将推出的一項新功能“Ask Photos”。

在圖檔上畫個圈,就能搜尋指定的對象,比如搜尋帶有車牌号的照片,或者問問“最近女兒遊泳學得怎麼樣”,Gemini能了解複雜的語境,輕松找到對應的照片和視訊。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo
比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

AIGC模型上新,

Veo可生成超60秒高清視訊

在圖像、音樂、視訊領域,谷歌都分别都釋出了新的模型或産品。

圖像生成

谷歌推出了迄今為止最高品質的文本到圖像生成模型Imagen 3,生成的圖像細節更豐富、更真實,而且能了解複雜文本提示。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

Imagen 3生成

音樂生成

谷歌和YouTube共同打造了Music AI Sandbox,這是一套專業的AI音樂創作工具,可以幫助創作者從0開始快速創作。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

視訊生成

谷歌釋出了最新的視訊生成模型Veo,隻需一個文本、圖檔或視訊提示,即可建立超過60秒的高品質1080p片段,支援多種電影風格,包括寫實主義、超現實主義、動畫等。或許未來每個人都會成為導演。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

以上這些AIGC模型,目前都可以在labs.google上申請試用。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

谷歌全家桶AI更新,

安卓手機搶先搭載AI助手

不出所料,更新後的Gemini 1.5 Pro将內建在更多的谷歌全家桶産品中,包括郵件、會議、文檔等軟體,以及手機等硬體裝置。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

比如Gmail中的Gemini能一鍵總結郵件内容,自己不用去多個郵件、附件中查閱,Gemini會根據語境分析,還會給出回複建議。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

向Excel中的Gemini提問,不用再費力編寫公式,AI會自動進行資料分析,以圖表形式給出計算結果。

比肩GPT-4o的多模态助手、AI概述搜尋結果、新視訊生成模型Veo

對于以AI為核心的手機,谷歌提到了三個關鍵應用:AI驅動搜尋(上文提到的圖檔畫圈搜尋),系統自帶的AI助手(目前安卓系統可用),AI保護隐私和安全(提示詐騙風險)。

谷歌表示,今年晚些将拓展Gemini Nano的多模态功能,新增視覺、聲音、口語輸入,這意味着AI手機可以幫助更多視力障礙群體等使用者更好地交流和生活。

皮查伊近日在接受《The Circuit With Emily Chang》專訪時提到,在技術領域,如果你不持續創新以保持領先,那麼任何公司都将不可避免地走向衰敗。

自2016年起,人工智能便一直是谷歌公司的核心焦點,谷歌的研究人員發明了Transformer,也就是GPT中的T。那時,OpenAI開發的ChatGPT尚處于起步階段。

而到了如今的生成式AI時代,谷歌卻屢次被OpenAI搶了風頭,同時還面臨着微軟等競争對手的嚴峻挑戰。

從今年I/O大會主旨演講釋出了這麼多新模型和産品更新來看,谷歌仍在堅持AI First的戰略方向,無論是搜尋還是AIGC應用等,AI的前沿高地必有谷歌的位置。

繼續閱讀