GPT-4o發力端側應用，OpenAI更在乎情緒價值

文 | 大模型之家

5月13日，OpenAI春季釋出會上，CTO Mira Murati代表公司向世界釋出了ChatGPT旗艦版本GPT-4o。整場釋出會上OpenAI運用了大量的篇幅，去介紹GPT-4o在移動端段與人類互動的先程序度，通過現場與GPT-4o交流、歌唱、實時解題等形式，強調了新模型多模态場景下的應用。

官方表示，在GPT-4o推出之前，使用者使用語音模式與ChatGPT進行對話時，延遲時間分别為GPT-3.5的2.8秒和GPT-4的5.4秒，GPT-4o将這一延遲被大幅縮短為320毫秒。

這是因為傳統語音模式通過三模型實作：音頻轉文本，GPT-3.5/GPT-4處理文本，再文本轉音頻。但GPT-4會丢失資訊，因其無法直接處理語調、多說話者、背景噪音，且不能輸出笑聲、歌唱或情感。而GPT-4o通過端到端訓練了一個全新的模型，能夠同時處理文本、視覺和音頻輸入輸出。這意味着所有的輸入和輸出都由同一個神經網絡處理。

多模态更新，GPT要做人類知音？

GPT-4o在性能和效率方面進行了顯著優化。得益于改進的模型架構和訓練方法，GPT-4o在處理複雜任務時展現出更高的準确性和更快的響應速度。OpenAI表示，GPT-4o的推出将為使用者帶來前所未有的體驗，顯著提升自然語言處理、對話系統、資料分析和程式設計輔助等領域的應用效果。

根據官網資訊，GPT-4o在文本、推理和編碼智能方面達到了GPT-4 Turbo級别的性能，同時在多語言、音頻和視覺功能上也達到了新高水位線。

文本評價：

在文本處理方面，GPT-4o在0-shot CoT（Chain of Thought） MMLU（常識問題）等測試中，取得了88.7%的高分，重新整理了紀錄。這種表現表明GPT-4o在無提示情況下依然能夠進行複雜的推理和回答問題。此外，在傳統的5-shot no-CoT MMLU測試中，GPT-4o也創下了87.2%的新高分。這些評估結果均通過新的評估庫進行，確定了測試的可靠性和權威性。這些改進不僅提升了模型的推理能力，還增加了其在廣泛任務中的适用性。

音頻ASR性能：

在音頻處理方面，相比Whisper-v3，GPT-4o在自動語音識别（ASR）性能上實作了大幅提升，特别是在資源匮乏的語言中，其表現尤為突出。這意味着GPT-4o不僅能夠處理主流語言，還能在更多語言環境下提供高品質的語音識别服務。

音頻翻譯性能：

同時，在語音翻譯方面，GPT-4o也樹立了新的行業标準，在MLS基準測試中表現優于Whisper-v3，展示了其在跨語言溝通和翻譯方面的卓越能力。

M3Exam零樣本結果：

在多語言和視覺評估方面，GPT-4o在M3Exam基準測試中，在所有語言的測試中均表現優異。這表明GPT-4o不僅在單一語言環境下表現出色，還能夠處理多語言環境下的複雜任務，充分展示了其強大的跨語言了解和處理能力。

視訊了解評估：

在視覺了解方面，GPT-4o在多個視覺感覺基準上實作了最先進的性能。這些基準測試包括0-shot的MMMU、MathVista和ChartQA等，這意味着GPT-4o在無樣本學習的情況下依然能夠保持高水準的視覺了解和推理能力。這種能力使GPT-4o在處理圖像、圖表和複雜視覺資訊時表現出色，進一步拓展了其在實際應用中的潛力。

GPT-4o在多個技術領域實作了顯著的性能提升。多模态能力讓GPT-4o在更多的應用場景中具有更高的實用性。此外，OpenAI提供了便捷的API接口，使得開發者可以輕松将GPT-4o內建到自己的應用中。此外，GPT-4o支援多種平台和程式設計語言，進一步提升了其使用的靈活性和便利性。

發力端側應用，OpenAI更在乎情緒價值

縱觀整場釋出會，OpenAI的表現并想要非突出技術帶來行業變革，而是讓人工智能技術除了在商業領域為企業帶來的提質增效，也更能夠服務好人們日常的生活。

或許這也是Sam Altman選擇更有親和力的女性CTO Mira Murati來主持本次釋出會的原因之一。

除了實時語音對話功能，研發負責人Barret還帶來了GPT-4o在實時處理數學問題的高光表現。Barret手寫了一個方程，并通過攝像頭将其拍給GPT-4o，并讓其進行線上指導。在語音助手的一步步指引下，Barret也是非常輕松的解決了該問題。

此外，OpenAI還展示了GPT-4o在代碼、實時翻譯等多種問題，盡管還是在有些測試是出現了錯誤，但整個釋出會都在一個非常輕松的環境下進行。不僅讓企業或研究團隊有了新的研究方向和參考，也讓更多C端使用者感受到AI賦予的全新産品體驗。

在PC端，OpenAI 推出了一款新的 macOS 應用，旨在簡化工作流程。該應用适用于免費和付費使用者，可無縫內建到使用者在計算機上的操作中。通過簡單的鍵盤快捷鍵，使用者可以立即向 ChatGPT 提問，并在應用程式中截取螢幕截圖進行讨論。

對于 Plus 使用者來說，這款 macOS 應用将提供更多的功能和服務。而未來幾周内，OpenAI 還計劃将該應用推廣到更廣泛的使用者群體，并計劃在今年晚些時候推出适用于 Windows 平台的版本，以滿足不同使用者的需求。

大模型之家認為，在人工智能領域的商業化程序中，C端市場占據了至關重要的地位。OpenAI作為一家領先的AI公司，對C端市場的使用者體驗給予了高度的重視，這種重視不僅是為了滿足使用者需求，更是為其在C端市場的進一步商業化探索鋪平了道路。

在C端市場，使用者需求多樣化且變化迅速，是以也更佳需要智能、人性化的使用者體驗，不僅要優化模型算法，也要提升互動界面的友好性和易用性，確定使用者在使用其産品時能夠享受到流暢、自然的互動體驗。

值得注意的是，OpenAI在2024年谷歌I/O大會前一天選擇“截胡”，不僅展現了OpenAI對于C端多模态大模型市場的重視，也透露出OpenAI在大模型商業競争格局中的積極态度和戰略眼光。

這一行動無疑為OpenAI赢得了更多的行業聲量。在科技行業中，聲量往往與影響力、市場佔有率和商業化潛力緊密相連。OpenAI通過這一政策，成功吸引了大量使用者和媒體的關注，進一步鞏固了其在AI技術領域的領先地位。

更重要的是，OpenAI的這一行動也直接指向了C端多模态大模型的入口。随着技術的不斷進步和應用場景的不斷擴充，多模态大模型已經成為AI領域的重要發展方向。它不僅能夠處理文本、圖像、音頻等多種資訊形式，還能夠實作更加智能、自然的人機互動，為使用者帶來更加便捷、豐富的體驗。是以，誰能夠搶占多模态大模型的入口，誰就有可能在未來的市場競争中占據先機。

從大模型商業競争格局來看，GPT-4o的免費開放無疑加劇了行業内的競争，也展示出了其對于商業擴張的“野心”。顯然，谷歌、Meta等科技巨頭不會坐以待斃，在這場“全面更新”的大模型商戰中，谷歌如何還擊？相信很快就會揭曉。

GPT-4o發力端側應用，OpenAI更在乎情緒價值

多模态更新，GPT要做人類知音？

發力端側應用，OpenAI更在乎情緒價值

繼續閱讀

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

藥企諾華、GSK中國區高層變動；OpenAI首席科學家離職 | 高管動态2024年5月5日-17日

保守派大潰敗？ OpenAI内鬥幕後推手離職阿爾特曼：這讓我很難過

OpenAI驚天内幕曝光！高管怒斥遭打壓，7100億AI巨頭内外交困｜钛媒體AGI

GPT-4o引發OpenAI組織創新熱議！重任應屆生大學生，職級都是浮雲

Ilya離開OpenAI内幕曝光：奧特曼砍他團隊算力，優先搞産品賺錢

OpenAI宮鬥大戲第二幕核心安全團隊解散負責人自爆離職内幕

OpenAI逼迫離職員工簽署閉嘴協定：GPT可以說話，但前員工不能

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

聊聊OpenAI最新釋出的GPT 4o

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！

OpenAI官宣啟動“下一代前沿模型”訓練！訓練參數預計将得到更大提升，或整合“文生視訊”模型Sora

OpenAI前董事揭示奧特曼罷免内幕：董事會是從X上知道ChatGPT已釋出的

全是“自己人”！OpenAI緊急成立“安全委員會”，距離“超級對齊”團隊解散不到半月，90天後将迎首次安全“大考”

OpenAI陷史上最大公關危機，掌門人奧特曼捐出一半身家幫公司渡難關