天天看點

Hello GPT-4o

作者:硬梗娛樂

今天,OpenAI正式推出最新旗艦模型GPT-4o,能夠跨音頻、視覺和文本進行實時推理。

GPT-4o("o" 即 "omni 全能")标志着實作更自然人機互動的重大進步。它能夠接收文本、音頻和圖像的任意組合作為輸入,并輸出同樣多樣化的組合。在最短232毫秒内響應音頻輸入,平均響應時間320毫秒,與人類在對話中的反應時間類似。在處理英語和程式設計方面與GPT-4 Turbo表現相當,非英國文本處理上則有顯著提升。此外,GPT-4o在API中的運作速度更快,成本也降低了50%。在視覺和音頻了解能力上,GPT-4o明顯優于現有模型。

在GPT-4o之前,人們可以使用語音模式與ChatGPT交談,平均延遲時間為2.8秒(GPT-3.5)和5.4秒(GPT-4)。為此語音模式內建了三個獨立模型:一個簡單模型将音頻轉錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個簡單模型再将文本轉換回音頻。這一過程意味着GPT-4可能丢失大量資訊——它無法直接了解語調、多個說話者的聲音或背景噪音,也無法輸出笑聲、歌唱或表達情感。

現在,OpenAI端到端訓練的新模型GPT-4o覆寫了文本、視覺和音頻,這意味着所有輸入和輸出都由同一個神經網絡處理。由于GPT-4o是第一個結合所有這些模态的模型,是以團隊對模型能力和局限性仍在探索中。

模型能力的探索

Hello GPT-4o
Hello GPT-4o
Hello GPT-4o

模型評估

根據傳統基準測試,GPT-4o在文本、推理和程式設計智能方面達到了GPT-4 Turbo級别的表現,同時在多語言、音頻和視覺能力方面設立了新的高标準。

改進的推理能力 - GPT-4o在5次嘗試的MMLU(多項選擇通用知識問題測試)中創下了87.2%的新高分。

Hello GPT-4o

音頻ASR性能 - GPT-4o在所有語言上顯著提升了語音識别性能,相較于Whisper-v3尤其在資源較少的語言上有顯著改進。

Hello GPT-4o

音頻翻譯性能 - GPT-4o在語音翻譯方面設立了新的行業标準,并在MLS基準測試中表現優于Whisper-v3。

Hello GPT-4o

M3Exam評測 - M3Exam基準測試同時涵蓋多語言和視覺評估,包括來自其他國家标準化測試的多項選擇題,有時會包含圖表和示意圖。在所有語言上,GPT-4o在這一基準測試上比GPT-4表現更強。

Hello GPT-4o

視覺了解評估 - GPT-4o在視覺感覺基準測試上達到了行業領先的表現。

Hello GPT-4o

語言分詞

20種語言被選為新分詞器在不同語言家族中壓縮改進的代表。(以下含中文壓縮表現)

Hello GPT-4o

模型安全性和局限性

GPT-4o在各種模态中通過設計内置了安全性,采用了如過濾訓練資料和通過後訓練改善模型行為的技術。OpenAI還建立了新的安全系統,為語音輸出提供保護措施。

OpenAI根據“準備架構”和自願承諾對GPT-4o進行了評估。對網絡安全、化學生物輻射核(CBRN)、說服力和模型自主性的評估顯示,GPT-4o在這些類别中的風險等級沒有超過中等。這一評估包括在模型訓練過程中進行一系列自動化和人工評估。同時團隊測試了模型安全措施前後的版本,使用自定義的微調和提示來更好地誘導模型的能力。

GPT-4o還經曆了由70多名外部專家在社會心理學、偏見與公正以及錯誤資訊等領域進行的廣泛外部紅隊測試,以識别由新加入的模态引入或放大的風險。并利用這些學習成果來建立安全幹預措施,以提高與GPT-4o互動的安全性。

團隊也認識到GPT-4o的音頻模态可能會呈現出多種新的風險。今天,OpenAI公開釋出文本和圖像輸入及文本輸出。在接下來的幾周和幾個月内,将緻力于技術基礎設施、通過後訓練提高可用性和必要的安全性,以釋出其他模态。例如,在釋出時,音頻輸出将限于一組預設的聲音,并将遵守現有安全政策。OpenAI将在即将釋出的系統卡中分享更多關于GPT-4o各種模态的詳細資訊。

通過對模型的測試和疊代,我們觀察到存在于模型所有模态中的幾個局限性,其中一些如下所示。

視訊加載中...

OpenAI歡迎使用者回報,幫助識别GPT-4 Turbo仍然優于GPT-4o的任務,以便繼續改進模型。

模型可用性

GPT-4o是OpenAI在深度學習領域推動實用性方向界限的最新步驟。在過去的兩年中,團隊在整個技術棧的每一層都進行了大量的效率改進工作。作為這項研究的首個成果,能夠更廣泛地提供GPT-4級别的模型。GPT-4o的能力将逐漸推出(從今天開始提供擴充的紅隊通路)。

GPT-4o的文本和圖像功能從今天開始在ChatGPT中推出。GPT-4o将提供給所有免費使用者,并為Plus使用者提供高達5倍的消息限制。未來幾周内在ChatGPT Plus中将以alpha版本推出新版語音模式。 開發者現在也可以在API中通路GPT-4o作為文本和視覺模型。

GPT-4o比GPT-4 Turbo快2倍,價格減半,速率限制提高了5倍。OpenAI計劃在未來幾周内向API中的一小群受信任的合作夥伴推出GPT-4o的新音頻和視訊功能。