天天看點

谷歌兩小時I/O大會提了“AI”121次,釋出了十餘項更新及新品,卻“缺乏驚喜”

作者:科技金融時報

中原標準時間5月15日淩晨,谷歌年度開發者I/O 大會2024在美國加利福尼亞州山景城總部附近的海岸線圓形劇場召開。整場釋出會由谷歌CEO桑達爾·皮查伊(Sundar Pichai)主持,全程曆時兩小時。

前一天,OpenAI剛釋出GPT-4o和全新的ChatGPT,此次谷歌要在開發者大會上交出怎樣的“AI”答卷外界充滿了期待。

澎湃科技(www.thepaper.cn)注意到,整場開發者大會,桑達爾·皮查伊稱,據Gemini統計,在整場釋出會上他共提及“AI”121次,釋出了十多項産品更新和新品,但外界評論稱,和GPT-4o不到30分鐘的釋出會相比,“缺乏驚喜”。

谷歌兩小時I/O大會提了“AI”121次,釋出了十餘項更新及新品,卻“缺乏驚喜”

谷歌年度開發者I/O 大會現場

此次開發者大會,谷歌将搜尋業務做了最徹底的AI改造,還更新更新了Gemini1.5Pro版本,同時推出Gemini1.5Flash輕量化小模型。除此之外,谷歌推出自稱效果超過Sora的生成視訊模型Veo,另外還展示了與GPT-4o 相似的語音視覺互動功能Gemini Live,同時,還更進一步推出了AI智能體Project Astra。

Gemini 更新,更加輕量

當天大會上,谷歌宣布對Gemini模型進行更新,此前,谷歌推出的Gemini 1.5 Pro是一個中型多模态模型,上下文長度為100萬tokens。

在此次開發者大會上,桑達爾·皮查伊宣布,通過改進資料和算法,提升模型的代碼生成、邏輯推理和規劃、多輪對話以及音頻和圖像了解能力等,更新後的Gemini 1.5 Pro能夠遵循越來越複雜和細微的訓示,包括指定産品級行為的訓示,如角色、格式和風格等。使用API的開發者和Google Cloud客戶可以通過候補名單擷取200萬tokens上下文視窗的1.5Pro。

更新後的Gemini 1.5 Pro将面向全球開發者開放,支援超過150個國家的35種語言。

此外,為了滿足使用者對低延遲和低成本的需求,此次釋出會上,谷歌釋出了輕量化模型Gemini 1.5 Flash。

谷歌兩小時I/O大會提了“AI”121次,釋出了十餘項更新及新品,卻“缺乏驚喜”

Gemini1.5Flash

相較于Gemini 1.5 Pro,該版本的特點是響應速度更快、成本低至0.35美元每百萬tokens。而Gemini 1.5 Pro則針對對高品質内容有需求的使用者,收費為7美元每百萬tokens。

盡管Gemini1.5 Flash體積小巧,仍實作了100萬個标記的長上下文視窗,開發人員還能注冊嘗試200萬個标記,适用于摘要、聊天應用、圖像和視訊字幕、長文檔和表格的資料提取等多種任務。據介紹,實作這些功能是因為谷歌采用了1.5Pro對該模型進行了被稱作“蒸餾(distillation)的訓練,将較大模型中最核心的知識和技能遷移到了更小、更高效的模型中。

釋出AI智能體Project Astra

“很久以來,我們都有一個夢想,希望打造一個通用的AI Agent(AI智能體),幫助人們的生活變得更友善。現在,我們多年磨一劍,推出 Project Astra 的通用 AI 智能體。”桑達爾·皮查伊在釋出會上說。這一智能體是基于Gemini模型,通過對視訊幀進行連續編碼,将視訊和語音輸入組合成事件時間軸,并緩存這些資訊以便高效召回,進而能夠更快地處理資訊。

大會現場,來自谷歌 Deepmind的 CEO 傑米斯·哈薩比斯(Demis Hassabis)上台,講解和展示了Project Astra的原型運作視訊。

在展示過程中,谷歌在演講中展示了一個人拿着手機,将攝像頭對準辦公室的各個地方,并用語言與其互動:“當你看到有東西發出聲音時,請告訴我。”在這段視訊示範中,Astra能識别各種物體甚至代碼,并實時與人類進行語音互動。

在展示環節,有使用者對Astra突然提出一個此前沒有涉及到的問題,“你記得我把眼鏡放哪裡了麼?”

“你的眼鏡在桌上蘋果旁邊。”Astra回答到。這一過程引起現場驚呼。

這表明,當攝像頭掃過的時候,Astra曾“看”到過使用者的眼鏡,Astra以視覺的形式記錄了下來。

但在看過了GPT-4o的示範之後,Astra的示範就顯得缺乏驚喜。

谷歌稱,未來通過手機或眼鏡,人們就能讓随身AI專家助理提供服務。不過,這些功能要在今年晚些時候才能在Gemini應用和網絡體驗等Google産品中看見。

釋出視訊生成模型Veo對抗Sora

此次釋出會上,傑米斯·哈薩比斯宣布,谷歌正式釋出一款全新的視訊生成模型Veo,将成為Sora新的勁敵。

谷歌聲稱,Veo能夠根據文本、圖像建立超過60秒的高品質1080P視訊,使用者可以對光照、鏡頭語言、視訊顔色風格等進行設定。此外,Veo還能夠了解電影和視覺技術,例如延時拍攝的概念。

使用者僅需寫出文本提示即可生成視訊,比如文本提示:“在甯靜的山地平移鏡頭,相機慢慢露出白雪皚皚的山峰、花崗岩岩石和倒映天空的清澈湖泊。”“一艘宇宙飛船在浩瀚的太空中穿梭,星星劃過,高速,科幻”。

和Sora一樣,Veo目前也不會公開,隻提供給少量創作者。

搜尋引擎更新,與Gemini結合

谷歌搜尋負責人莉茲·裡德( Liz Reid )在此次釋出會上稱,在過往的25年裡,谷歌經曆了許多技術變革,“我們不斷重新構想和擴充 Google 搜尋的功能。”

莉茲·裡德宣布,如今,借助AI,谷歌搜尋可以做的事情超出人們的想象。她表示,将 Gemini 包括多步推理、規劃和多模态等功能與谷歌搜尋系統結合在一起,推出AI Overviews。通過AI Overviews,使用者可以上傳示範其要解決的問題的視訊,然後啟動搜尋在論壇和網際網路的其他區域以找到解決方案。

此外,使用者也可以向定制的 Gemini 模型提出複雜的問題。甚至當使用者不知道自己問什麼的時候,Google也可以給使用者推薦,給使用者做頭腦風暴。使用者可以直接與 Gemini 聊天,從整個收件箱中查找詳細資訊。

莉茲·裡德稱,“從回答、計劃、需求定制到組織和視訊搜尋,Google都會替你完成,而你需要做的隻有提問。”不過,AI Overviews将首先在美國推出。

Trillium:AI基礎設施的更新

訓練大模型需要大量的計算能力。在大會進行到中途,澎湃科技注意到,桑達爾·皮查伊低調宣布了谷歌的第六代張量處理單元 (TPU) ——Trillium。谷歌稱其為“迄今為止性能最強、能效最高的 TPU”,與上一代 TPU v5e 相比,Trillium每個晶片的峰值計算性能提高了 4.7 倍。谷歌将于今年晚些時候向其雲客戶提供Trillium。

值得關注的是,谷歌此次也在安卓平台上推出一系列全新AI功能。谷歌表示,此前,"Circle to Search"功能允許使用者無需切換應用即可搜尋,現在起它還可以作為學習伴侶,解答數學題、圖表等複雜問題。目前這一功能已在超過1億台安卓裝置上提供,預計到年底這一數字将翻倍。

來源:澎湃新聞(記者 喻琰)

編輯:王姝