今天，OpenAI正式推出最新旗艦模型GPT-4o，能夠跨音頻、視覺和文本進行實時推理。

GPT-4o（"o" 即 "omni 全能"）标志着實作更自然人機互動的重大進步。它能夠接收文本、音頻和圖像的任意組合作為輸入，并輸出同樣多樣化的組合。在最短232毫秒内響應音頻輸入，平均響應時間320毫秒，與人類在對話中的反應時間類似。在處理英語和程式設計方面與GPT-4 Turbo表現相當，非英國文本處理上則有顯著提升。此外，GPT-4o在API中的運作速度更快，成本也降低了50%。在視覺和音頻了解能力上，GPT-4o明顯優于現有模型。

在GPT-4o之前，人們可以使用語音模式與ChatGPT交談，平均延遲時間為2.8秒（GPT-3.5）和5.4秒（GPT-4）。為此語音模式內建了三個獨立模型：一個簡單模型将音頻轉錄為文本，GPT-3.5或GPT-4接收文本并輸出文本，第三個簡單模型再将文本轉換回音頻。這一過程意味着GPT-4可能丢失大量資訊——它無法直接了解語調、多個說話者的聲音或背景噪音，也無法輸出笑聲、歌唱或表達情感。

現在，OpenAI端到端訓練的新模型GPT-4o覆寫了文本、視覺和音頻，這意味着所有輸入和輸出都由同一個神經網絡處理。由于GPT-4o是第一個結合所有這些模态的模型，是以團隊對模型能力和局限性仍在探索中。

模型能力的探索

模型評估

根據傳統基準測試，GPT-4o在文本、推理和程式設計智能方面達到了GPT-4 Turbo級别的表現，同時在多語言、音頻和視覺能力方面設立了新的高标準。

改進的推理能力 - GPT-4o在5次嘗試的MMLU（多項選擇通用知識問題測試）中創下了87.2%的新高分。

音頻ASR性能 - GPT-4o在所有語言上顯著提升了語音識别性能，相較于Whisper-v3尤其在資源較少的語言上有顯著改進。

音頻翻譯性能 - GPT-4o在語音翻譯方面設立了新的行業标準，并在MLS基準測試中表現優于Whisper-v3。

M3Exam評測 - M3Exam基準測試同時涵蓋多語言和視覺評估，包括來自其他國家标準化測試的多項選擇題，有時會包含圖表和示意圖。在所有語言上，GPT-4o在這一基準測試上比GPT-4表現更強。

視覺了解評估 - GPT-4o在視覺感覺基準測試上達到了行業領先的表現。

語言分詞

20種語言被選為新分詞器在不同語言家族中壓縮改進的代表。（以下含中文壓縮表現）

模型安全性和局限性

GPT-4o在各種模态中通過設計内置了安全性，采用了如過濾訓練資料和通過後訓練改善模型行為的技術。OpenAI還建立了新的安全系統，為語音輸出提供保護措施。

OpenAI根據“準備架構”和自願承諾對GPT-4o進行了評估。對網絡安全、化學生物輻射核（CBRN）、說服力和模型自主性的評估顯示，GPT-4o在這些類别中的風險等級沒有超過中等。這一評估包括在模型訓練過程中進行一系列自動化和人工評估。同時團隊測試了模型安全措施前後的版本，使用自定義的微調和提示來更好地誘導模型的能力。

GPT-4o還經曆了由70多名外部專家在社會心理學、偏見與公正以及錯誤資訊等領域進行的廣泛外部紅隊測試，以識别由新加入的模态引入或放大的風險。并利用這些學習成果來建立安全幹預措施，以提高與GPT-4o互動的安全性。

團隊也認識到GPT-4o的音頻模态可能會呈現出多種新的風險。今天，OpenAI公開釋出文本和圖像輸入及文本輸出。在接下來的幾周和幾個月内，将緻力于技術基礎設施、通過後訓練提高可用性和必要的安全性，以釋出其他模态。例如，在釋出時，音頻輸出将限于一組預設的聲音，并将遵守現有安全政策。OpenAI将在即将釋出的系統卡中分享更多關于GPT-4o各種模态的詳細資訊。

通過對模型的測試和疊代，我們觀察到存在于模型所有模态中的幾個局限性，其中一些如下所示。

視訊加載中...

OpenAI歡迎使用者回報，幫助識别GPT-4 Turbo仍然優于GPT-4o的任務，以便繼續改進模型。

模型可用性

GPT-4o是OpenAI在深度學習領域推動實用性方向界限的最新步驟。在過去的兩年中，團隊在整個技術棧的每一層都進行了大量的效率改進工作。作為這項研究的首個成果，能夠更廣泛地提供GPT-4級别的模型。GPT-4o的能力将逐漸推出（從今天開始提供擴充的紅隊通路）。

GPT-4o的文本和圖像功能從今天開始在ChatGPT中推出。GPT-4o将提供給所有免費使用者，并為Plus使用者提供高達5倍的消息限制。未來幾周内在ChatGPT Plus中将以alpha版本推出新版語音模式。開發者現在也可以在API中通路GPT-4o作為文本和視覺模型。

GPT-4o比GPT-4 Turbo快2倍，價格減半，速率限制提高了5倍。OpenAI計劃在未來幾周内向API中的一小群受信任的合作夥伴推出GPT-4o的新音頻和視訊功能。

Hello GPT-4o

模型能力的探索

模型評估

語言分詞

模型安全性和局限性

模型可用性