昨晚 OpenAI 釋出了 ChatGPT-4o 後,壓力就給到了 Google I/O ,仿佛 Google 無論如何也擺脫不了「AI 界的汪峰」這一稱号。
而 Google 則通過近 2 個小時的釋出會,提了 121 次 AI ,推出了十餘種新品及更新,可謂「量大管飽」,火力全面覆寫,但給人的驚喜卻并不多。
我們先給大家一次性總結這場釋出會的亮點,更多功能解析請接着往下看。
釋出會要點:
- Google Search AI:釋出了 AI Overviews,加強版 AI 搜尋概要功能,多步推理能力上架。
- Gemini 大模型:Gemini 1.5 Flash(100 萬上下文);Gemini Pro(200 萬上下文)。
- Gemma 大模型:釋出開源多模态大模型 Pali Gemma 和 Gemma2。
- AI in Google Workspace:用 Gemini 的能力和 Side Panel 的形式,将 Google 系列産品串在一起。
- Gemini App:手機版的 Gemini 應用程式,即将支援和 AI 視訊對話,近幾周釋出。
- Project Astra:最新的多模态 AI 項目,包含 Imagen3、 Music AI Sandbox 和 Veo 等針對圖像、音樂、視訊的生成式 AI。
做搜尋起家,用搜尋王炸
Google Search 是 Google 最大的投資和創新領域之一,更是它們的創始産品。
25 年前,Google 開啟了搜尋功能,今晚 Google 再次拓展了搜尋的邊界。
簡單來說,有了 AIGC 的 Google Search,可以做到更多事情:
無論你在想什麼,無論你需要完成什麼,隻要問問(它),Google Search 就能找到。
而 Google Search 的一切進化,都是建立在專為其定制的 Gemini 模型上。
Google 在釋出會上介紹,「與衆不同」的 Google Search,主要有三個獨特的優勢:
- Google 的實時資訊包括超過一萬億個關于人、地點和事物的事實
- 名列前茅的産品,和最好的網絡服務之一
- Gemini 的力量
把将這三件事結合在一起,就解鎖了 Google 在搜尋領域的全新能力。
第一個新功能是 AI Review,使用者可以通過在搜尋結果的頂部,擷取由 AI 大模型生成的摘要,以此簡化整個搜尋過程,讓複雜問題的檢索過程,變得簡單。
Google 稱,到今年年底,将有超過十億人使用 Google Search 中的 AI Review 功能,而且 Google 宣稱,這也将會是其搜尋引擎 25 年以來最大的更新之一。
Multi-step reasoning 是 Google Search 中的另一個重磅功能。
通過全新的多步推理,以後我們做一些生活、工作和出行的計劃,會變得非常簡單。
比如你可以通過搜尋欄來找到「附近最好的瑜伽館」,随後附近所有關于瑜伽館的評價評分、課程推薦、距離等重要資訊,都會被分類成塊,十厘清楚地在搜尋結果中顯示。
依靠 Google 自有的龐大資料庫,AI 在搜尋過程當中可以調用最新、最全的高品質資訊,是以搜尋結果的準确性和可信性也就有了更多的保障。
目前,Google 在全球包含了超過 2.5 億個地點,并實時更新,當中還包括評分、評論、營業時間等重要資訊。
Planning in Search 是另一個幫你減少負擔的更新。
比如你現在正在重新調整膳食結構、從頭安排飲食計劃,不想在早餐、午餐和晚餐時吃通心粉和奶酪。
直接把需求抛給搜尋框,Google Search 就能還給你一份按照要求,且合理安排的全新一周食譜。
而且,你還可以随時改變條件和細節,搜尋的結果也會根據最新的提示實時更新。
如果說上述的功能,我們已經在其他公司的産品中見過,甚至用過,那 Ask with Video ,一定會給你一些驚喜。
生活當中有很多物件,都有着各自的專屬名稱,有些器械出現一些小問題時,也都有着對應的修理方式。但很多時候隻有專業人士才能叫得出,也隻有他們能「對症下藥」。
現在通過 Google Search 的 Ask with Video,每個人都能稱為專家,它相當于一本裝在手機裡的百科全書。
唱片的零部件不起作用了不知道從何下手,相機的快門突然失靈…… 以前可能要大費周折地寄回廠家售後,但現在用 Google 裝置的鏡頭拍下問題所在,Google Search 就能根據你所遇到的問題初步診斷,一些小故障還能當場給出解決方案。
在釋出會的實時示範裡,AI 還把整個的修理步驟一一列出,按照螢幕上的訓示,示範者很快就能解決小麻煩。
這個功能,是通過 AI 逐幀分解視訊,把每一幀的關鍵資訊導入 Gemini 的長觸點視窗挨個分析,并梳理網絡中相關的文章、論壇、視訊等,從中找到見解,以此實作了 Ask with Video 的智能建議。
比起傳統的文字輸入,視訊最大的好處在于,我們和 AI 的互動過程變得更加直覺,用「這裡」「這個」等模糊的詞語,也能使大模型知道我們指代到底是什麼。
Google 稱,這些最新的 AI 功能,将會在未來幾周内于實驗室功能推出,這也意味着更強大的 Google Search 離落地已經不遠了。
後續版本中,它甚至還将能基于頁面中視訊的自動字幕來尋找答案,不知道會不會搶了那些「1 分鐘看完 XX 電影」部落客的飯碗。
圖 · 歌 · 片,瞄着 OpenAI 打
如果說前兩天的 GPT-4o 是 AI 再一次給世界帶來了一點震撼,那今晚 Google 官宣的 Project Astra 則是震撼的延續。
Project Astra 是 GoogleMind 的原型——一個通用人工智能助手。
和 GPT-4o 的使用效果類似,使用者可以通過它和 AI 實時對話,以及視訊聊天。
釋出會的示範可以很好地表現這個新功能,從業人員在示範視訊中将手機鏡頭對準身邊的物品,并向 Project Astra 提出一些疑問,它幾乎能做到零延時地準确回答。
例如 Project Astra 能說出音響上半部分的是高音喇叭,對電腦螢幕上顯示的代碼也能輕松識别其具體作用。
Google 稱:
我們的新項目專注于建構一個未來的人工智能助手,它可以在日常生活中真正提供幫助。
基于更強大的 AI 性能,Google 在 I/O 上還宣布了另外三個實用功能,它們分别在「圖像」「音樂」「視訊」領域,展現着先進技術的「未來感」。
Imagen 3 是 Google 釋出的最新的圖像生成模型。
它可以更加了解我們的提示詞,并以此建立更加逼真的圖像。
釋出會上展示的「狼」的生成圖檔,就是 Imagen 3 在一段叙述中,準确提取了 8 個細節資訊,并且在圖檔中都有展現。
不難發現,生成圖檔不僅細節準确,而且十分逼真。
Imagen 3 還能應對一些更加抽象的圖檔創作,例如根據「彩虹色」「羽毛組成的 light」「黑色背景」的提示,生成的創意圖檔。
就像是它很清楚你想要什麼。
發言人甚至在釋出會上開玩笑式地炫耀「你可以用它來數别人臉上的胡須」。
在音樂生成方面,Google 也有了新的突破。
Music AI Sandbox 是最新推出的音樂生成模型,Google 這次在 I/O 現場還請來了 Marc Rebillet 坐鎮分享。
根據藝人創作的一小段音樂 demo,Music AI Sandbox 能在此基礎上拓展延長,還可以進一步按照使用者輸入的提示詞,如音樂風格和種類等,進行樂曲的二度創作。
Google 稱,它們和 YouTube 一起建構了 Music AI Sandbox:
這是一套專業的 AI 音樂工具,可以從頭開始建立新的樂器部分,在軌道之間轉換風格等,以幫助我們設計和測試它們。
另一個實用模型名為 Veo,專注于生成視訊。
使用者隻需輸入相關的文本、圖像或視訊提示,Veo 就能建立高品質的 1080p 規格的視訊,時長也達到了 60 秒之久。
它能以不同的視覺和電影風格捕捉指令中的詳細資訊。
例如,我們可以在提示中輸入事物、橫向或延時的航拍照片,并使用其他提示進一步編輯視訊。
一直以來,視訊生成 AI「隻在理論上成立」其實有諸多阻礙,其中走向「能用」的最大門檻是:視訊生成時間隻有短短幾秒,一般隻能在一兩個動作裡反複橫跳。
是以 Sora 釋出之初才會引起非常大的讨論,而今晚開始,Google 的 Veo 也成了大家重點關注的對象,從照片寫實主義到超現實主義和動畫,大部分的影視風格,它都能處理。
除了 Project Astra 以外,Google 還為我們提供了一個可私人定制的 Gemini ——Gems。
Google 表示,它能在保留指定特征的情況下完成任務,成為千人千面的私人助手,使用者可以通過調整定位,使其成為瑜伽好友、虛拟的流行人物、健身夥伴、創意寫作指導甚至是微積分導師等,都不在話下。
Gemini 狂卷長文本,Gemini 家族再添新成員
Gemini 項目自曝光以來,一直備受關注。起初也曾存在一定争議,但後來也憑借自身實力挽回了口碑,而今也越來越成熟。
據皮查伊介紹,目前有超過 150 萬開發人員使用 Gemini 模型,使用者數量已經達到 20 億,如今皮查伊再提「Gemini 時代」,目标是将其內建到所有産品中,為使用者帶來全新體驗,也為創造者、開發者、創業公司創造新的機會。
目前最新的 Gemini 1.5 Pro 支援 100 萬 token 文本量,今年晚些時候據稱這個數字将會達到 200 萬,能夠同時處理 2 小時的視訊、22 小時的音頻、超過 60,000 行代碼或超過 140 萬個單詞。
此外,大會還宣布了基于 Gemini 1.5 Pro 的 Gemini Advanced,據稱它可以處理「多個大型文檔,總計最多 1500 頁,或彙總 100 封電子郵件」,還支援 35 種語言和 150 多個國家 / 地區。
不得不說,在文本量方面,Gemini 确實很卷,「朝着将任何輸入轉為任何輸出的目标邁出了一大步」。
安全永遠是重中之重
自 AI 誕生之初以來,關于如何辨識 AI 生成内容的争論就一直沒有停止。Google 的對策是通過 SynthID,為 AI 生成的圖像和音頻添加不可見的水印,使其更易于區分,
未來 Google 将會把這一範圍推廣到文本及視訊中,并在接下來的幾個月裡,通過更新生成式 AI 工具包開源 SynthID 文本水印,幫助更多開發人員更輕松地負責任地建構 AI。
Gemini 融入其中後,Android 會在通話過程中,檢測到可疑活動時發出警告,例如被要求提供您的社會安全号碼和銀行資訊,屬于是直接把「反詐中心」裝手機上了。
還有無障礙功能 TalkBack 也将通過 Gemini Nano 增強,圖像描述将更加清晰和豐富,幫助視力不佳的使用者通過語音回報更好地操作手機,展現出 Google 一貫的人文關懷。
而對于 Google 今晚的表現,英偉達 NVIDIA 研究經理 Jim Fan 的評價,十分中肯。
Google 新釋出的模型似乎是多模态輸入,但不是多模态輸出的 Imagen3 和 Music AI Sandbox 仍然作為獨立元件與 Gemini 分離。将所有模态 I/O 原生合并是不可避免的未來。
它可以執行任務,如「使用更機器人化的聲音」「編輯這幅圖像」「生成一緻的漫畫條帶」。
而且還不會在模态邊界上丢失資訊,例如情感和背景聲音,全新模型打開了新的上下文能力,使用者也能通過少量示例教導模型,并以新穎的方式結合不同的意義。
GPT-4o 并不完美,但它正确地掌握了形式因素,用安德烈的 LLM- 作為作業系統的比喻來說:
我們需要模型本地支援盡可能多的檔案擴充名。
Google 做對了一件事:他們終于在将人工智能整合到搜尋框中做出了認真的努力。
Gemini 不必是最好的那一個,但卻可以成為最廣泛使用的一個。
#歡迎關注愛範兒官方微信公衆号:愛範兒(微信号:ifanr),更多精彩内容第一時間為您奉上。
愛範兒|原文連結· ·新浪微網誌