谷歌Gemini 1.5 Pro更新至200萬token，宣布面向全球開發者開放

當地時間 5 月 14 号下午，谷歌在美國山景城召開了年度 I/O 開發者大會。

在 110 分鐘的時間裡，人工智能（AI）這個關鍵詞被提到了 121 次，展現了谷歌在人工智能領域全力以赴的姿态和顯而易見的野心。

作為谷歌的旗艦模型，Gemini 及其各種疊代版本悉數亮相，搶盡了風頭。谷歌正在将其整合到幾乎所有自家産品中，包括安卓系統、搜尋、浏覽器和 Gmail 等等，各種示範看的人眼花缭亂。

此前，谷歌 Gemini 共有三個版本，分别是 Ultra、Pro 和 Nano，尺寸不同，性能不同，應對的場景也有所差異。

現在，谷歌在大會上又推出了新版本，Gemini 1.5 Flash。谷歌表示，新的多模态模型與 Gemini 1.5 Pro 一樣強大，但它針對“高頻、低延遲的任務”進行了優化。這使得它能夠更好地産生快速響應。

谷歌Gemini 1.5 Pro更新至200萬token，宣布面向全球開發者開放

（來源：谷歌）

谷歌還對 Gemini 1.5 進行了一些更新，據稱這将提高其翻譯、推理和編碼的能力。此外，谷歌表示，它已将 Gemini 1.5 Pro 的上下文視窗（可以接收的資訊量）增加了一倍，從 100 萬個 token 增加到 200 萬個。

目前，Gemini 1.5 Pro 和 1.5 Flash 均已開放公共預覽版。谷歌還披露，目前 Gemini 的開發者已經超過 150 萬，超過 20 億使用者體驗到了 Gemini 的強大。

在 Gemini 的加持下，多款谷歌産品迎來了新功能。比如，谷歌照片将于今年晚些時候新增 Ask Photos 功能，現在可以更好地搜尋照片，識别不同的照片背景，甚至是根據車牌号尋找照片或者回答其他關于照片内容的問題。

谷歌 CEO 桑達爾·皮查伊（Sundar Pichai）在台上表示，Gemini 可以“将任何輸入轉化為任何輸出”。這意味着它可以從文本、照片、音頻、社交或網絡視訊以及手機攝像頭的實時視訊中提取資訊，整合這些資訊，最後總結其中的内容并回答問題。

谷歌展示了一段示範視訊，視訊中的人用相機掃描了書架上的所有書籍，并将書名記錄在資料庫中以便稍後識别。

（來源：谷歌）

谷歌在大會上宣布的另一個重頭戲，是将于今年晚些時候推出一款名為 Astra 的新系統，并承諾它将成為谷歌迄今為止推出的最強大、最先進的人工智能助手。

目前一代的人工智能助手，例如 ChatGPT，可以檢索資訊并提供答案，但其本領僅限于此。但今年，谷歌将其虛拟助手（assistants）重新命名為更先進的“代理（agents）”，據稱可以具備推理、計劃和記憶技能，并能夠采取多個步驟來執行任務。

谷歌 DeepMind 研究副總裁奧裡奧爾·維尼亞爾斯（Oriol Vinyals）告訴《麻省理工科技評論》，人們将能夠通過智能手機甚至台式電腦使用 Astra，但該公司也在探索其他選擇，例如将其嵌入智能眼鏡或其他裝置中。

值得一提的是，在 I/O 大會播放的示範視訊中，眼尖的觀衆捕捉到了疑似谷歌眼鏡原型的裝置。這意味着谷歌或許重新啟動了早年失敗的智能眼鏡項目。

（來源：Sean Hollister / The Verge ）

“我們正處于（人工智能代理開發）的早期階段。”谷歌 CEO 皮查伊在 I/O 大會之前的電話會議上表示。

“我們一直希望建構一個在日常生活中有用的通用智能體。”谷歌 DeepMind 的 CEO 兼聯合創始人戴米斯·哈薩比斯（Demis Hassabis）說道。

“想象一下，這些代理可以看到和聽到我們所做的事情，更好地了解我們所處的環境，并在對話中快速做出反應，進而使互動的速度和品質更加自然。”他補充說，“這就是 Astra 未來的樣子。”

谷歌召開 I/O 大會的前一天，其競争對手 OpenAI 推出了自己的超級人工智能助手 GPT-4o。谷歌 DeepMind 的 Astra 對音頻和視訊輸入的響應方式與 GPT-4o 非常相似。

在谷歌的示範視訊中，一名使用者将智能手機攝像頭和智能眼鏡對準物體，并要求 Astra 解釋它們是什麼。當使用者将裝置朝向窗外并詢問“你認為我在哪個社群？”時，人工智能系統能夠識别倫敦國王十字車站，即谷歌 DeepMind 總部所在地。

它還可以提醒使用者眼鏡在桌子上，因為它在之前的互動中記錄了這一點。

維尼亞爾斯表示，該示範展示了谷歌 DeepMind 對實時多模态人工智能（可以處理多種類型的輸入，包括語音、視訊、文本等）的願景。

“我們非常興奮，在未來，能夠真正貼近使用者，為使用者提供他們想要的任何幫助。”他說。谷歌還更新了其人工智能模型 Gemini，以處理更大量的資料，這一更新有助于它處理更大的文檔和視訊，并進行更長的對話。

科技公司正在競争人工智能領域的“霸主”地位，而大型科技公司為了表明他們正在推動技術前沿的發展，人工智能代理成為了它們的“寵兒”。

許多科技公司都把人工智能代理放到了它們的叙事當中，包括 OpenAI 和谷歌 DeepMind。這些公司的目标都是建構通用人工智能（AGI），這是一種關于超級人工智能系統的想法，在很大程度上仍處在設想階段。

華盛頓大學專門研究線上搜尋的奇拉格·沙阿（Chirag Shah）教授表示：“最終，你将擁有一位真正了解你，可以為你做很多事情，并且可以跨多個任務和領域工作的代理。”

這個願景令人向往，但谷歌今天的釋出會是其與對手競争的最新努力。沙阿表示，通過推出這些産品，谷歌可以從超過 10 億使用者那裡收集更多資料，了解他們如何使用模型以及哪些模型有效。

在 I/O 大會上，除了人工智能代理，谷歌還推出了更多新的人工智能功能。

它将通過一項名為人工智能概述（AI overviews）的新功能将人工智能更深入地內建到搜尋引擎中，該功能從網際網路上收集資訊，并将其精煉成簡短的摘要展示給使用者，作為搜尋結果的一部分。該功能已在美國上線，稍後将開放給更多的國家和地區。

路透社新聞研究所人工智能和數字新聞研究員菲利克斯·西蒙（Felix Simon）表示，這将有助于加快搜尋過程，并為使用者提供針對更複雜、更小衆問題的更具體答案。

“我認為這就是搜尋一直難以做好的地方。”他說。

谷歌人工智能搜尋的另一個新功能是更好的規劃。例如，人們很快就可以要求搜尋提供餐飲和旅行建議，就像要求旅行社推薦餐館和酒店一樣。

圖 | 人工智能幫助解決數學問題（來源：谷歌）

給它一份食譜，Gemini 将能夠幫助使用者計劃需要做什麼或者買什麼。使用者還能與人工智能系統對話，要求它完成許多任務，簡單的任務例如告訴他們天氣狀況，複雜的任務則包括幫助他們準備面試或重要演講。

人們還可以打斷 Gemini 的回應并提出澄清問題，就像和人類對話一樣。巧合的是，OpenAI 昨天展示的 GPT-4o 也具備同樣的能力。

為了進一步應對競争對手 OpenAI，谷歌還推出了 Veo，一個新的視訊生成人工智能系統。Veo 能夠生成短視訊，還能了解“延時”或“空中視角拍攝風景”等提示，允許使用者更好地控制視訊短片的風格。

谷歌在訓練視訊生成模型方面具有顯着優勢，因為它有 YouTube。該公司已經宣布與唐納德·格洛弗（Donald Glover ）和懷克裡夫·吉恩（Wycleaf Jean）等藝術家合作，他們正在使用該公司的技術來創作自己的作品。

今年早些時候，當被問及 OpenAI 的模型是否在訓練中使用了 YouTube 的資料時，OpenAI的首席技術官米拉·穆拉蒂（Mira Murati）并未給出明确回答。

谷歌 DeepMind 進階研究總監道格拉斯·艾克（Douglas Eck）在接受《麻省理工科技評論》詢問時，對于用于創造 Veo 的訓練資料也含糊其辭，但他表示“可能會根據我們與 YouTube 創作者的協定，在某些 YouTube 内容上進行訓練”。

沙阿表示，谷歌一方面将其生成式人工智能作為藝術家可以用來創作的工具來宣傳，但另一方面，這些工具很可能通過使用現有藝術家的作品來學會如何創造新的東西。

谷歌和 OpenAI 等人工智能公司正面臨着一系列作家和藝術家的訴訟，聲稱他們的知識産權在未經同意或付費的情況下被使用。

“對于藝術家來說，這是一把雙刃劍。”沙阿說。

最後，為了更好地區分人工智能生成内容和真實内容，谷歌還擴充了其 SynthID 水印工具。它旨在檢測人工智能生成的錯誤資訊、深度僞造或網絡釣魚垃圾郵件。

SynthID 會在生成内容中留下難以察覺的水印，人類無法看到，但可以使用分析像素資料的軟體檢測到。該工具現在可以掃描 Gemini 應用程式上的、網絡上的和 Veo 生成的内容。谷歌表示，計劃在今年夏天晚些時候将 SynthID 作為開源工具釋出。

參考：

https://www.wired.com/story/everything-google-announced-at-io-2024/

https://www.technologyreview.com/2024/05/14/1092407/googles-astra-is-its-first-ai-for-everything-agent/

https://www.theverge.com/2024/5/14/24156518/google-glass-prototype-ar-glasses-io-2024

支援：Ren

排版：羅以

谷歌Gemini 1.5 Pro更新至200萬token，宣布面向全球開發者開放

繼續閱讀

公園緩建官渡區心有不甘，并入文旅項目結合商業開發一起幹

科技巨頭積極布局AI領域！微軟将召開年度開發者大會，或透露人工智能PC計劃

期刊精粹 | 基于謹慎城市更新理論的德國柏林滕博爾霍夫機場綜合開發模式的啟迪【2024.2期】

華為餘承東：已有2000多名華為開發者支援OpenHarmony 累計貢獻超6200萬行核心代碼

距中蒙邊境僅140公裡！澳洲在蒙古發現世界最大未開發稀土礦

女子充值百萬玩遊戲要求退款遭拒，要求開發票時遊戲公司已登出

斯巴魯、豐田、馬自達：将開發适應電動汽車時代的新型發動機｜晚報

台積電開發矽晶圓切割新方法

從資料到晶片，開發AI越來越昂貴，隻有科技巨頭能“玩得起”？

VisualBAT，批處理檔案編譯程式。專業的批處理BAT開發工具，可以将BAT轉成EXE應用程式。它可以幫助你批量處理

開發商“畫餅” 傭金返現兩年多都沒拿到

同人反沖官方！00後遊戲開發者憑借奇思妙想，成了“賽博孟德爾”

公布！這78家公司核準為房地産開發一級資質企業

清華與面壁聯合開發模型被套殼，兩位斯坦福學生作者道歉删除引用

日産将停止開發新内燃機！正式确立電氣化戰略，你看好嗎？

開發商和瓦斯公司設計不合理，是造成糾紛的主要根源。移出瓦斯閥門是解決問題的根本。高女士做法沒錯！