天天看點

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

作者:HyperAI超神經

本周的 AI 圈注定熱鬧非凡。

當地時間 5 月 13 日,OpenAI 将直播釋出 ChatGPT 與 GPT-4 的更新。次日,Google I/O 如約而至。不同于 I/O 大會是谷歌的年度盛會,OpenAI 此次的臨時釋出頗有點搶熱度的意思。這對糾纏已久的「老對頭」此次又會如何出招呢?我們不妨來一起回顧一下雙方的淵源,并進行大膽猜想!

多輪對壘,激戰正酣

自從 OpenAI 一鳴驚人後,谷歌便被貼上了「恨鐵不成鋼」、「起步慢」、「追趕」等标簽。其中最值得探究的便是「AI 黃埔軍校」這一稱謂,看似褒獎,實則是谷歌的「一把辛酸淚」。

衆所周知,奠定 OpenAI 王座的 ChatGPT 是基于 Transformer 架構的,而 Transformer 正是由谷歌在「Attention Is All You Need」這篇論文中提出的裡程碑式架構。此外,ChatGPT 釋出界面的緻謝中也出現了多位前谷歌大佬的身影,随後更是有多位谷歌骨幹員工跳槽至 OpenAI……更有意思的是,每當谷歌試圖「絕地反擊」時,總會伴随一些小插曲。

2023 年 2 月,為應對 ChatGPT 谷歌提出了 Bard,但在釋出後不就便被爆出,在示範時出現事實性錯誤——

在回答「關于詹姆斯·韋布空間望遠鏡 (JWST),我可以告訴我 9 歲孩子它有何新發現?」這一問題時,Bard 給出的一個答案是:第一張太陽系外行星的照片由 JWST 拍攝。但哈佛—史密森天體實體中心的研究人員格蘭特·特朗布萊指出,是歐洲南方天文台的甚大望遠鏡 (VLT) 于 2004 年拍攝了第一張系外行星照片。

2023 年 5 月的 I/O 大會上,谷歌展示了 Bard 的産品更新,例如支援更多語言、識别圖像資訊、接通谷歌應用程式以及部分外部應用等等。同時,谷歌還釋出了 PaLM2,作為對标 GPT-4 的産品,其在數學、編碼、推理、自然語言生成方面都有所提升。

谷歌健康研究團隊還基于此建立了 Med-PaLM 2,具備檢索醫學知識、解碼醫學術語等功能。不出意外,模型上對标 GPT,應用上也要對标微軟,谷歌将其 AI 能力整合到了文案寫作、制作表格等辦公場景中,推出了 Google Workspace。

随後,不少網友以各種形式将 PaLM 2 與 GPT-4 進行了對比,OpenAI 仍然領先的呼聲更高。

2023 年 12 月,谷歌釋出了其「規模最大、能力最強」的 AI 模型 Gemini,示範效果的确驚豔,高配版本在性能上也能夠與 GPT-4 一搏,但是卻被爆出示範視訊經後期處理,效果被部分誇大。

2024 年 2 月 8 日,谷歌宣布将 Bard 正式更名為 Gemini,其最強模型 Gemini Ultra 加持的聊天機器人 Gemini Advanced 也正式開放,設定與 ChatGPT 相同的 20 美元為「月租」,頗有些打擂台的意思。這次釋出更重要的意義是,将谷歌 AI 統一整合為 Gemini——既是模型名、也是産品名。

2024 年 2 月 16 日,自家最強的 Gemini 1.0 Ultra 釋出沒幾天,谷歌便一鼓作氣地推出了 Gemini 1.5。其中,Gemini 1.5 Pro 最高可支援 100 萬 token 超長上下文,在 token 數碾壓 GPT-4,進而在音頻、視訊處理等任務上取得了優異的表現。如果沒有 Sora,Gemini 1.5 恐怕會在很長一段時間内都是 AI 圈的熱議話題。

就在 Gemini 1.5 釋出後幾個小時,OpenAI 便祭出了文生視訊模型 Sora,用前所未有的視訊生成能力瞬間站到了舞台的最中央,長達 1 分鐘的示範視訊直接搶走了 Gemini 的話題度。

這一輪,從技術上無從對比,話題度上顯然是勝負已分,OpenAI 也借助 Sora 進一步鞏固了自己的地位。

OpenAI 又要截胡熱度?

值得注意的是,5 月 1 日,X 網友 Jimmy Apples 爆料,OpenAI 的搜尋引擎可能會在 5 月 9 日釋出,這位網友曾經準确預測了 GPT-4 的釋出日期。随後,他又稱釋出日期推遲到了 5 月 13 日。

5 月 8 日,彭博社報道也稱,OpenAI 内部正在開發全新的搜尋引擎,通過生成式 AI 的問答方式帶來全新搜尋體驗。彭博社表示該搜尋引擎的特點之一,是可以用書面文字和圖像來回答問題。彭博社報道稱,OpenAI 的搜尋産品是其旗艦産品 ChatGPT 的延伸,使 ChatGPT 能夠從網絡上直接擷取資訊,包括引文。在此前的報道中,The Verge 曾爆料,OpenAI 正在挖角谷歌搜尋部門的工程師,推進其 AI 搜尋産品的快速上線。

OpenAI 此番向本來已經格局穩定的搜尋業務下手,有點「直搗黃龍」的意味?

不過,就在 5 月 11 日,OpenAI 官方釋出推文稱,13 日的釋出會隻會帶來 ChatGPT 和 GPT-4 的更新,隻字未提「搜尋引擎」。但 5 月 13 日這個日期頗有意思,因為谷歌早已宣布将在 5 月 14 日召開 Google I/O 大會。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

随後,Sam Altman 直接明牌了——不是 GPT-5,不是搜尋引擎,但是我們一直在努力開發一些我們認為人們會喜歡的新東西!對我來說就像魔法一樣。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

在 Sam Altman 去除了兩個錯誤答案之後,網友們圍繞「OpenAI 到底會釋出什麼」的大猜想仍然熱情高漲,同時也有更多的蛛絲馬迹被曝光,其中便包括了語音互動。

據 The Information 報道,OpenAI 已經向其使用者展示了一個既能夠交談也能夠識别物體的新模型,該模型能夠提供更快、更準确的圖像與音頻了解。據 The Verge 報道,開發人員 Ananay Arora 稱,ChatGPT 或将具備通話功能。Arora 還發現證據表明,OpenAI 提供了用于實時音頻和視訊通信的伺服器。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

此外,Hallid 聯合創始人 indigo 在其推特 (X) 賬号上釋出了更加詳細的預測,不僅提到了 GPT-4.5,同樣也預測了 OpenAI 的新 AI Assistant 助手将支援全語音互動。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

不過,從某種角度來看,Sam Altman 雖然否認了「搜尋引擎」,但其并未表示不會給 ChatGPT 加點「搜尋 buff」。其實,最近一段時間裡,網友已經扒出了大量證據——OpenAI 已經進軍搜尋領域了。

首先是前 Mila 研究員、麻省理工講師 Lior S 爆料,OpenAI 最新的SSL證書日志顯示,search.chatgpt.com 子域名已經建立。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

目前通路該域名顯示 Not found,而非 404 或域名錯誤

國内有網友接到了灰階測試,「賽博禅心」在其公衆号上釋出了試用效果:

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能
杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

圖源:賽博禅心

可以看到,ChatGPT 回答的還是很精準的,「賽博禅心」表示回答速度也還可以。然而,在實時資訊的擷取上,ChatGPT 則顯現出了不足,賽博禅心搜尋比特币價格,并與谷歌搜尋出的價格進行了比對:

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能
杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

圖源:賽博禅心

此外,有網友直接在推特上釋出了一段号稱是 OpenAI 官方 AI 搜尋頁面的示範 demo,但與灰階測試的界面有很大不同:

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

目前,OpenAI 的搜尋産品最終是否會以灰階測試的形式與大家見面仍是未知數,整體來看,其所要面對的競争者也不光是谷歌一家,還有 Perplexity AI。其實,從某種意義上講,Perplexity AI 才是 OpenAI 在搜尋業務上應該直接對标的産品。

如今,這個自诩為「世界上首個對話式搜尋引擎」的 AI 工具風頭正盛,獲得了黃仁勳的力挺、貝佐斯等大佬的投資,其獨特之處在于将 ChatGPT 式的問答和傳統搜尋引擎的連結清單相結合。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

OpenAI 将以何種形式參與到 AI 時代的搜尋引擎市場競争中呢?先期待一下 5 月13 日的釋出會上是否會揭秘 ChatGPT 的搜尋功能。

Google I/O 隻能靠 Gemini 挑大梁了?

OpenAI 有心還是無意的釋出會是否會爆出重大更新仍未可知,但是相信谷歌勢必會準時觀看這場直播,如果真的有驚喜,不知道劈柴哥是否能夠快速應對,并在一天後的 Google I/O 大會上及時反擊?

相較而言,一年一度的 Google I/O 大會則是缺乏了一些神秘感,在其官方頁面上預告的會議重點是——移動、Web、ML/AI、雲。

杠上Google I/O?OpenAI搶先一天直播,ChatGPT或将具備通話功能

按照慣例,公司 CEO Sundar Pichai 将在主題演講中分享 Android 的更新、新一代硬體産品、谷歌在 AI 領域的最新進展與成果,以及其 AI 能力與谷歌全生态的融合。

* Gemini 賦能谷歌全生态

毫無疑問,Gemini 肯定是今年 Google I/O 大會的重頭戲。今年 2 月才更新的 Gemini 1.5 已經将上下文長度拉到了百萬級,在性能上已經可以與 GPT-4 一戰。是以,谷歌下一步則是需要考慮落地應用的問題了——如何将 Gemini 與其搜尋、照片和視訊工具、谷歌地圖、以及 Gmail 和 Google Docs 等工作空間的工具整合到一起。

此外,谷歌也已經逐漸将其 AI 能力注入到了 Google Assistant 中,Gemini 的強大能力是否能夠打造一個更加先進的、更像一個人類的自然語言語音助手呢?

值得注意的是,作為同時擁有先進大模型與硬體業務的企業,Gemini 與 谷歌自家的 Pixel 能碰撞出什麼樣的火花?去年便有消息稱,名為 Pixie 的 AI 助手可能會在 Pixel 9 上亮相。

去年 Google I/O 大會上亮相的 Pixel 8 便已經搭載了谷歌的 AI 能力。其配備了 Google 自研晶片 Tensor G3 處理器,具備音頻魔術橡皮擦、 Best Take、翻譯并朗讀網頁等功能。例如,Best Take 功能可以将多張集體照片組合在一起,從不同的圖檔中選擇不同人物的表情來建立完美合影。

按照慣例,今年的大會上将釋出 Pixel 9,但目前的爆料中并未見其身影,反而是 Pixel 8a 呼聲較高,至于 AI 助手 Pixie 是否亮相隻得拭目以待。

此外,今年 4 月,外媒爆出蘋果和谷歌正聯手将 Gemini 整合到 iOS 系統中,兩家公司都沒有正式證明這一消息,如果消息屬實,也算得上是兩家在多業務上處于競争關系的巨頭,進行了一次「世紀大合作」。不知道劈柴哥會不會在 Google I/O 大會上宣布相關消息。

* Android 和 AR/XR

作為谷歌的基石,Android 永遠是 Google I/O 大會上不可或缺的内容。今年,Android 15 已經解開了神秘面紗,開發者預覽版和最初的測試版已經釋出,Pichai 勢必會在演講中進一步介紹系統的重磅更新。根據此前披露的資訊來看,其還将介紹基于 Android Auto 實作的智能車載以及智能手表軟體 Wear OS。

此外,有媒體爆出,Pichai 将會分享谷歌 AR 軟體的消息,并介紹其為三星及其他頭顯廠商開發的 Android XR 平台。根據今年早些時間的報道,谷歌的這一輪裁員的重災區是 AR 硬體團隊,是以有媒體猜測,其已經放棄開發自己的 AR 硬體,而是完全緻力于 OEM 合作模式,換言之,谷歌将專注于軟體層面。

除了 劈柴哥的主題演講外,今年的 Google I/O 大會還有多個主題論壇,例如 Google AI 的新動态、Android 的新動态、面向生成式 AI 時代的 ML 架構等等,但并未提供直播,将在演講結束後放出相關視訊素材,HyperAI超神經也将持續關注,并圍繞 AI 帶來深度報道,敬請期待~

寫在最後

過去,工業是衡量國家實力的重要度量,如今,科技實力也跻身談判桌,甚至成為了大國博弈的籌碼。尤其是在大模型熱度高居不下之際,矽谷巨頭們的一舉一動都備受關注。猶記得 2022 年末,OpenAI、微軟、谷歌等總是突襲釋出重磅更新,網友們直呼——一覺醒來,AI 圈又變天了?

進入 2024 年,戰況仍在持續升溫,從技術層面的競速、到應用場景的開發,從老牌勁旅、到新晉獨角獸,能夠在風口持續霸榜的一定是有護城河的企業。至于在金字塔頂端的大佬們将如何鬥法,讓我們一起搬好小闆凳,靜觀神仙打架!

參考資料:

1.https://36kr.com/p/2660898993824512

2.https://techcrunch.com/2024/05/09/google-i-o-2024-what-to-expect/

3.https://www.spiceworks.com/tech/tech-general/articles/google-io-2024-expectations

4.https://www.theverge.com/2024/5/11/24154307/openai-multimodal-digital-assistant-chatgpt-phone-calls

繼續閱讀