天天看點

2024 谷歌開發者大會:三句話不離 AI

作者:動點科技

I/O 大會(開發者大會)是谷歌一年一度的秀肌肉時刻,也是人工智能時代不容錯過的大舞台。今日淩晨,新一屆I/O 大會在谷歌加州總部開幕。據悉,本次大會結束後統計提到了 AI 共 121 次(包括文本的話實際應該還不止),全面展示了谷歌如何将AI技術融入其核心産品,從搜尋引擎到移動作業系統,再到專用硬體,AI的應用無處不在。

特别是Gemini 1.5 Pro的釋出,标志着谷歌在處理大規模資料和提升使用者體驗方面邁出了重要一步。此外,谷歌還推出了更輕量級的模型Gemini 1.5 Flash,以及進一步更新的開源模型Gemma 2,這些舉措不僅展示了谷歌在AI技術上的創新,也彰顯了其推動AI技術普及和應用的決心。

2024 谷歌開發者大會:三句話不離 AI

Gemini 全家桶疊代

Gemini 1.5 Pro是本次的重頭戲。谷歌将Gemini 1.5 Pro的上下文長度從原有的100萬tokens提升到了200萬tokens,這一更新将極大地增強其資料處理能力,使得模型在處理更加複雜和龐大的資料時更加遊刃有餘。同時,谷歌還宣布Gemini 1.5 Pro将全面支援Workspace。

據悉,全新Gemini 1.5 Pro具有原生音頻了解、系統指令、JSON模式等,能夠使用視訊計算機視覺來分析圖像和音頻的視訊,這使其具有人類水準的視覺感覺。使用深度神經網絡,Gemini 1.5 Pro可以以超人的精度識别圖像中的物體、場景和人物。此外,谷歌宣布将Gemini 1.5 Pro面向全球開發者開放。

同時,為了快速響應與成本效益,谷歌還推出更輕的模型Gemini 1.5 Flash,其在摘要生成、聊天應用、圖像和視訊字幕、以及從長文檔和表格中提取資料等方面表現出色,主要面向廣大開發者群體。

值得一提的是,谷歌将進一步更新開源模型Gemma 2。據了解,Gemma 2模型的高效設計使其所需的計算量少于同類模型的一半,使更廣泛的使用者能夠輕松部署并享受成本效益。

谷歌還宣布為Gemini平台引入旅行規劃功能。該功能将結合個人資訊和公共出行資訊,幫助使用者進行航班、酒店等度假行程的預訂和規劃。谷歌表示,Gemini可以根據使用者的提示,快速挖掘出航班時間和酒店預訂等具體細節,在短短幾秒鐘内制定出合适的度假計劃。與手動規劃一次旅行可能需要數小時、數天甚至數周的時間相比,Gemini幾乎可以瞬間完成這一過程。

谷歌表示,新的旅行計劃功能将在未來幾個月内登陸Gemini Advanced平台。

搜尋引擎更新

谷歌相信人工智能是搜尋的未來。為此,谷歌開始向搜尋引擎“動刀”。

谷歌即将向美國和世界各地的使用者推出“AI概述”——在搜尋結果的頂部将出現人工智能生成的摘要,而這隻是人工智能如何改變搜尋的開始。

谷歌搜尋主管Liz Reid說:“我們從生成式人工智能中看到的是,谷歌可以為您進行更多的搜尋。”過去幾年,她一直在研究人工智能搜尋的所有部分。“它可以從搜尋中完成很多艱苦的工作,是以你可以專注于你想完成事情的部分,或者你覺得令人興奮的探索部分。”

AI概述,旨在讓使用者大緻了解查詢的答案,以及擷取更多資訊的資源連結。谷歌正在使用其Gemini人工智能來弄清楚你在問什麼,無論你是在打字、說話、拍照還是拍攝視訊。然而,Reid說,并非每次搜尋都需要這麼多人工智能,也不是每次搜尋都會得到它。“如果您隻想導航到URL,您可以搜尋沃爾瑪,然後前往walmart.com。添加人工智能并不真正有益。”她認為Gemini最有幫助的地方是在更複雜的情況下,你要麼需要進行大量搜尋,要麼甚至一開始就得到一個大概的預覽。

對于本地搜尋,有了Gemini,“我們可以做一些事情,比如‘在比肯山步行半小時内找到波士頓最好的瑜伽或普拉提工作室,評分超過四星級。’”也許,她繼續說,你也想知道哪些對第一次來的人有最大的幫助。對于使用者來說,這可能意味着一種與網際網路互動的全新方式:更少的打字,更少的标簽,以及更多的搜尋引擎聊天,獲得資訊将更加高效。

2024 谷歌開發者大會:三句話不離 AI

針對競對推出 Project Astra 和 Veo

針對昨日OpenAI釋出的GPT-4o,谷歌也釋出了對标的大模型Project Astra。

據介紹,谷歌是在 Gemini 的基礎上開發了智能體原型,它可以通過連續編碼視訊幀、将視訊和語音輸入組合到事件時間線中并緩存此資訊以進行有效調用,進而更快地處理資訊。通過語音模型,谷歌還強化了智能體的發音,為智能體提供了更廣泛的語調。這些智能體可以更好地了解他們所使用的上下文,并在對話中快速做出響應。

2024 谷歌開發者大會:三句話不離 AI

另外,為了對抗 Sora,谷歌開發的AI視訊生成軟體Veo,同樣支援使用文本生成視訊,并且能建立超過60s的1080P視訊,同時還能使用多種電影風格和更好地了解自然語言。

谷歌表示,創作者在使用Veo時,可以使用各種電影拍攝術語來指導Veo達到想要的視覺效果,如“延時攝影”和“風景航拍”,減少調整提示詞的時間。另外,Veo還支援擴充視訊的功能。如果創作者對現有的視訊長度不滿意,可以讓Veo自動擴充視訊,或者補充提示詞來生成更長的視訊。

目前谷歌已經開放了試用通道,未來其還準備将Veo的一些功能添加到YouTube的短視訊子產品中。

Android 15

毫無疑問,人工智能是谷歌在本次大會上的重中之重。在移動作業系統上,Android 15得到了Gemini的助力,包括它即将提供的裝置端功能。

目前的Android 15預釋出版帶來了新功能,如更多的應用程式内相機控制、部分螢幕共享和響度控制,以及對PDF、NFC和衛星連接配接支援的改進。谷歌移動作業系統的新增内容側重于生産力,使用者隐私和安全,通信和性能等。

除了融合谷歌Gemini大模型,Android 15還新增了多項功能,比如弱光增強功能,這是一種新的自動曝光模式,它與夜間模式相機建立靜态圖檔的方式不同,後者會通過多張合成來提升夜景表現。弱光增強的重點在于提升相機預覽界面的效果,以便使用者更好地在弱光環境下取景構圖,或者在光線昏暗的環境下掃描二維碼。

目前,Android 15開發人員和測試版僅在某些Google Pixel裝置上可用,從Pixel 6到Pixel 8 Pro,以及Pixel Fold和Pixel Tablet。

第六代 TPU 問世

TPU(張量處理器)是谷歌為機器學習定制的專用晶片,發端于十一年前,在谷歌諸多産品和服務中都能看到其身影,為谷歌AI帝國的建立立下了赫赫之功。

谷歌表示,全新的Trillium 能夠以更快的速度訓練新一代 AI 模型,同時減少延遲和降低成本。與上一代 TPU v5e 相比,Trillium TPU 的每晶片峰值計算性能提高了 4.7 倍,高帶寬記憶體 ( HBM ) 容量和帶寬提高了一倍,晶片間互聯 ( ICI ) 帶寬也提高了一倍。作為迄今為止谷歌最具可持續性的 TPU,與其前代産品相比,能效提高了超過 67%。

結語

時隔一天,谷歌緊随對手 OpenAI,密集地推出了一系列AI産品或服務。在此,谷歌不僅展示了其在AI技術上的突破,更彰顯了其将AI融入日常生活各個方面尤其是生産力的決心。

對此,英偉達進階科學家Jim Fan發表了自己的觀後感,他認為谷歌做對了一件事,“他們終于開始認真努力将人工智能融入搜尋框,”他表示,谷歌最強大的護城河是分銷,“Gemini不必是最好的模型,就可以成為世界上使用最廣泛的模型。”

繼續閱讀