ChatGPT-4o，OpenAI的一小步，人類「AI助理」的一大步

文｜黎詩韻

編輯｜靖宇

5 月 13 日，OpenAI 用一場春季釋出會，再次攪動了整個 AI 行業。

在 Sam Altman 缺席的情況下，OpenAI CTO Mira Murati 擔綱介紹了新的 ChatGPT 産品 ChatGPT-4o。

短短 26 分鐘的釋出會，卻幾乎是科幻電影《Her》的現實演繹。當你打開 ChatGPT，你面對的不再是一個隻會幫你生成内容、或者進行僵硬語音聊天的工具——你喚起的将是一個「無所不能」的語音助手，或者說，一個越來越接近人類的「物種」。

它長出了「眼睛」，可以通過攝像頭看到你，比如它通過研究員上揚的嘴角判斷他的心情、通過他周圍的環境背景判斷了他正在做什麼、甚至給出了造型建議；它能「看到」你的電腦桌面，直接幫你檢視寫的代碼有什麼問題。

它有了更靈敏的「耳朵」，能聽懂的不隻是語言，還能聽懂研究員過于急促的呼吸聲，并引導他慢慢平穩呼吸、放松下來。

OpenAICTO Mura Murati 宣布推出 ChatGPT-4o | 圖檔來源：OpenAI

它有了更靈活的「嘴巴」，對話不再有延時，你能随時打斷它、它能随時接住你的話。它的聲音能帶入感情，比如更冷靜一點、更激昂一點、甚至諷刺一點。它還能唱歌。

它也有了更聰明的「大腦」。它能幫研究員一步步解不等式，還可以做同聲翻譯、你可以通過它跟不同語種的人們交流。

這些強大的能力背後，源自 OpenAI 推出的新模型 GPT-4o。與現有模型相比，GPT-4o 的最大進步在于，它可以實時對音頻、視覺和文本進行推理——換句話說，它讓ChatGPT實作了真正意義上的多模态互動。

這不僅僅是技術進步的追求，更是應用普及的追求。OpenAI 的使命之一是讓 AI 普惠每個人，讓使用者能順滑地用上 AI 是至關重要的。在「模型即應用」的時代，這種互動體驗最終還是靠模型能力的提升。OpenAI 稱，GPT-4o（「o」代表「omni」）是邁向更自然的人機互動的一步。

釋出會上，Mira Murati 宣布 ChatGPT-4o 将免費向所有使用者開放，而付費和企業使用者，可以搶先獲得體驗。

電影《Her》上映于 2013 年，它講述了一位人類愛上一位人工智能語音助理的故事。從今天 ChatGPT 呈現的能力來看，這樣的想象正在加速成為現實。

ChatGPT 的驚人進步：變身人類「超級助理」，甚至不需要人類參與

在 OpenAI 的官網上，呈現了 ChatGPT 作為個人語音「超級助理」的更多驚人應用場景。

首先是面向單個使用者，和人一樣，它提供的主要是「情緒價值」與「認知價值」。比如它能講笑話、唱生日快樂歌、玩遊戲、逗小狗、給人催眠、讓人放松等等；它能充當面試官，給人提供面試建議；它還能給一位盲人提供環境觀察，給他講述看到的景色、提醒他過馬路的路況。

盲人使用者使用 ChatGPT-4o「觀察」整個世界 | 圖檔來源：OpenAI

接着是面向多個使用者，它提供的更多是一種「協同價值」。比如給兩個語言不通的人充當翻譯，讓他們能無障礙溝通；給兩個人做「剪刀石頭布」的遊戲裁判，先喊密碼讓遊戲開始、之後還能準确判斷是哪個人赢了；充當一名「家教」，幫一位父親輔導他的孩子做作業；甚至作為一名「會議第三方」，主持和記錄多人會議。

最有意思的還是，不同 ChatGPT 之間的對話。這種無需人類參與的溝通，不僅充滿了科幻感，更讓人開始想象無需人類協作、而讓機器代替人類協作的未來。在一段示範中，一位使用者要求一部手機的 ChatGPT 代表自己，向另一部手機的 ChatGPT 申請售後，結果這兩個 ChatGPT 毫無阻礙地聊了兩分鐘，順利幫這位使用者「換了貨」。而 OpenAI 總裁 Greg Brockman 則做了一個調皮的示範，他讓兩個 ChatGPT 互動并唱了歌。

OpenAI 總裁 Greg Brockman 示範兩個 GPT 的互動｜圖檔來源：OpenAI

一位曾在 10 年前就開始做「AI 語音助理」的前大廠高管對極客公園表示，他當時就設想過 AI 助理的終極形态應該是「多模态、無所不能」，但彼時技術并不支援，他認為 ChatGPT 會加速這種設想實作的可能——隻是他沒想到，這個過程會來得這麼快。

他認為，實作 AGI 的一個關鍵标志是，機器是否能具備了自主學習、自主疊代、自主解決問題等能力。這個突破看起來很遙遠，但當兩個 ChatGPT 開始互相聊天的時候，這個鴻溝看起來似乎淺了一點點。

GPT-4o 多模态大模型的技術進步、以及安全性

這些驚豔的産品表現，根本上源自于 GPT-4o 多模态大模型的技術進步。後者分為文本、語音、圖像三部分，GPT-4o 在這三塊都有提升，尤其是後兩者。

在文本方面，據 OpenAI 的技術報告，GPT-4o 在 MMLU（語言）、GPQA（知識）、MATH（數學）、HumanEval（程式設計）的評測名額上，都超出了 GPT-4T、GPT-4 (23 年 3 月最初釋出版本)，以及競品 Claude 3 Opus、Gemini Pro 1.5、Llama3 400b、Gemini Ultra 1.0。比如在 0-shot COT MMLU 上，GPT-4o 創下了 88.7% 的新高分。

GPT-4o 在文本上的成績相當優異|圖檔來源：OpenAI

最關鍵的，是音頻、多語言和視覺上的進步。

在音頻方面，過去 ChatGPT 的音頻缺陷是需要經過三個獨立的模型，進而存在延遲、且無法承載豐富資訊。它先由第一個模型将音頻轉錄為文本，再由 GPT-3.5 或 GPT-4 接收文本并輸出文本，最後由第三個模型将該文本轉換回音頻——一方面，它使得音頻的傳輸存在延遲，GPT-3.5 的平均延遲為 2.8 秒，GPT-4 的平均延遲為 5.4 秒。另一方面，模型會丢失大量資訊，進而無法直接觀察音調、多個說話者或背景噪音，也無法輸出笑聲、歌唱或表達情感。

而 GPT-4o 的解決辦法是，跨文本、視覺和音頻端到端地訓練了一個新模型，這意味着所有輸入和輸出都由同一神經網絡處理。OpenAI 稱這是其突破深度學習界限的最新舉措。目前，GPT-4o 可以在短至 232 毫秒、平均 320 毫秒的時間内響應音頻輸入，與人類的響應時間相似。同時在音頻 ASR 性能和翻譯性能上，GPT-4o 都比 Whisper-v3（OpenAI 的語音識别模型）的性能更優。

M3Exam 基準測試既能用于多語言評估，也可以用于視覺評估。它由多項選擇題組成，包括圖形和圖表。在所有語言的基準測試中，GPT-4o 都比 GPT-4 更強。另外在視覺了解評估上，GPT-4o 在視覺感覺基準上都實作了最先進的性能。

GPT-4o 在視覺了解上同樣能力不錯 | 圖檔來源：OpenAI

一位大模型訓練者曾對極客公園表示，模型的技術領先性從來不是靠打榜評分，而是靠使用者最真實的感受和體驗。從這個角度來說，GPT-4o 的技術領先性将很容易見分曉。

OpenAI 表示，GPT-4o 的文本和圖像功能将于釋出會當天在 ChatGPT 中推出。免費使用者就可以使用，不過 Plus 付費使用者能享受高達 5 倍的消息容量。在未來幾周内，OpenAI 會在 ChatGPT Plus 中推出新版本的語音模式 GPT-4o alpha。

而開發人員現在就可以在 API 中通路 GPT-4o 的文本和視覺模型。與 GPT-4 Turbo 相比，GPT-4o 速度提高了 2 倍、價格降低了一半、速率限制提高了 5 倍。在未來幾周内，OpenAI 計劃向一小部分值得信賴的合作夥伴推出 GPT-4o 的新音頻和視訊功能。

一項強大的技術最令外界擔憂的，就是它的安全可控性。這也是 OpenAI 最核心的考慮之一。

OpenAI 表示，GPT-4o 通過過濾訓練資料和通過訓練後細化模型行為等技術，在跨模式設計中内置了安全性。其還建立了新的安全系統，為語音輸出提供防護。為了保證更好的安全性，OpenAI 表示在接下來的幾周和幾個月裡，将緻力于技術基礎設施、教育訓練後的可用性以及釋出其他模式所需的安全性。

OpenAI 從沒讓外界失望，再次引領科技圈的未來

作為這波 AI 浪潮的開啟者、引領者，OpenAI 的每一次釋出和更新，都關系着其龐大使用者量的漲跌、公司競争的進退、以及整個行業的關注和走向。

在這次釋出會之前，外界對 OpenAI 頗多謠傳、也包括質疑。一周前，外媒報道此次 OpenAI 要釋出的是一款搜尋引擎——在一年最重要的新聞釋出時刻，這家公司沒有推出 GPT-5，這引來外界對其創新力的頗多懷疑。而如果無法拿出足夠創新力的技術和産品，這家公司将難以重振使用者的增長、滿足整個市場對它的期待。

自 2022 年底推出 ChatGPT 後，這家公司的使用者量經曆了大起大落。據 Similarweb 估計，其全球通路量在 2023 年 5 月達到 18 億次的峰值。但進入 2023 年下半年後，其使用者量則有所下降，至今仍未追平去年 5 月的全球通路量峰值記錄。

自 2022 年 11 月以來，ChatGPT 在全球和美國的流量增長情況｜圖檔來源：Similarweb

這次釋出會，直接關系着其使用者量的增長情況。

外界對搜尋引擎還是頗為關注的，Similarweb 表示這個消息當天讓 ChatGPT 流量大漲。不過，在釋出會前兩天，OpenAI CEO Sam Altman 才對外澄清，此次既不會發 GPT-5、也不會發搜尋引擎，「但我們一直在努力開發一些我們認為人們會喜歡的新東西！對我來說感覺就像魔法一樣。」他把這件事描述得更小了。

或許，人們是在一種低期待中觀看這次 OpenAI 的釋出會。但最終，他們收獲到的是一次強烈的震撼。這或許正是 OpenAI 想要的反差效果。

無論是最初的 GPT-3.5，還是去年這個時候的 GPT-4，還是去年底的 GPTs，又或者是今年年初的 Sora——OpenAI 再一次證明，它不會讓世人失望。盡管 Google、Claude、Character AI、Perplexity 等競争對手正攫走更多新使用者、以及資本的青睐，但 OpenAI 依然證明自己有能力引領着科技創新的「高地」。

ChatGPT 和其他聊天機器人的通路量對比｜圖檔來源：Similarweb

在此次 OpenAI 推出基于 GPT-4o 的「超級智能助理」之後，這似乎也将成為接下來各科技大廠争先追趕的方向。

據外媒報道，近期谷歌一直在測試使用人工智能打電話。傳聞，它将推出一款名為「Pixie」的多模态個人助理，作為「Google Assistant」的替代品。它可以通過攝像頭檢視物體，并執行人類指令。這在明天的 Google I/O 大會上就會見分曉。

而近日，外媒亦報道，蘋果即将與 OpenAI 達成協定——在 6 月份蘋果舉辦的年度全球開發者大會上，蘋果或将在 iOS 18 中引入由 ChatGPT 提供支援的「聊天機器人」，這或将對蘋果的個人語音助理 Siri 帶來颠覆性影響。

難以想象，僅僅一年半的時間，OpenAI 就将技術推到了今天這個地步、讓「超級助理」的想象這麼快發生在我們眼前。然而，這也隻是 OpenAI 釋放的技術實力的一角。畢竟，我們今天談到的僅僅是 GPT-4 的更新，還沒有說到 GPT-5。OpenAI 到底會給我們帶來多少震撼、以及随之會産生多少憂慮，都是未知的問題。

如果站在科技的未來隧道往回看，今天 GPT-4o「超級語音助理」的誕生，或許會成為科技史上一個标志性的時刻。但或許又如同 OpenAI 首席營運官 Brad Lightcap 幾天前所說，「在接下來的 12 個月裡，我們應該會覺得今天使用的（AI）系統糟糕得可笑。」

ChatGPT-4o，OpenAI的一小步，人類「AI助理」的一大步

ChatGPT 的驚人進步：變身人類「超級助理」，甚至不需要人類參與

GPT-4o 多模态大模型的技術進步、以及安全性

OpenAI 從沒讓外界失望，再次引領科技圈的未來

繼續閱讀

人類非地球原住民？科學家驚人發現引熱議！

鬧大了！蛋炒飯也能預制！五元一包重新整理三觀！人類真的百毒不侵？

美國專家：中國又開始反人類操作，從荒漠中挖出了亞洲最大水庫

全新報告！原創概念！中國高校首提“人類全面發展2050（CDGs2050)”

AI周報 | 位元組跳動大模型訓練被“投毒”；微軟将終止中國個人Azure OpenAI服務

未來某一天，人類作為一個物種也許會徹底消失，将發生什麼呢？

在漫長的生命進化史中，最傑出的産物非人類的大腦莫屬

在宇宙中如克隆出一個太陽系,在這太陽系地球上能進化出人類嗎？

精準“算病”！AI檢測癌症準确率高達94%，未來人類不再談癌色變？

100年前的人類預測2023年:癌症将被消除，人可以活到300歲?

20張不常見的圖檔，看看人類的遺傳基因有多強大

4年内AI統治腦力工作，人類搬磚？馬斯克預言300億機器人占領世界

一場流感奪走了1億生命：人類最大的浩劫，竟改變了世界命運

百年前，美國“人類動物園”罕見影像，土著人根本沒有尊嚴可言！

人類可能已錯過自救的時間視窗了

人類曆史上颠覆認知的6個理論，每一個都推動着人類文明的進步