天天看點

GPT-4o發力端側應用,OpenAI更在乎情緒價值

作者:钛媒體APP
文 | 大模型之家

5月13日,OpenAI春季釋出會上,CTO Mira Murati代表公司向世界釋出了ChatGPT旗艦版本GPT-4o。整場釋出會上OpenAI運用了大量的篇幅,去介紹GPT-4o在移動端段與人類互動的先程序度,通過現場與GPT-4o交流、歌唱、實時解題等形式,強調了新模型多模态場景下的應用。

官方表示,在GPT-4o推出之前,使用者使用語音模式與ChatGPT進行對話時,延遲時間分别為GPT-3.5的2.8秒和GPT-4的5.4秒,GPT-4o将這一延遲被大幅縮短為320毫秒。

這是因為傳統語音模式通過三模型實作:音頻轉文本,GPT-3.5/GPT-4處理文本,再文本轉音頻。但GPT-4會丢失資訊,因其無法直接處理語調、多說話者、背景噪音,且不能輸出笑聲、歌唱或情感。而GPT-4o通過端到端訓練了一個全新的模型,能夠同時處理文本、視覺和音頻輸入輸出。這意味着所有的輸入和輸出都由同一個神經網絡處理。

多模态更新,GPT要做人類知音?

GPT-4o在性能和效率方面進行了顯著優化。得益于改進的模型架構和訓練方法,GPT-4o在處理複雜任務時展現出更高的準确性和更快的響應速度。OpenAI表示,GPT-4o的推出将為使用者帶來前所未有的體驗,顯著提升自然語言處理、對話系統、資料分析和程式設計輔助等領域的應用效果。

根據官網資訊,GPT-4o在文本、推理和編碼智能方面達到了GPT-4 Turbo級别的性能,同時在多語言、音頻和視覺功能上也達到了新高水位線。

  • 文本評價:
GPT-4o發力端側應用,OpenAI更在乎情緒價值

在文本處理方面,GPT-4o在0-shot CoT(Chain of Thought) MMLU(常識問題)等測試中,取得了88.7%的高分,重新整理了紀錄。這種表現表明GPT-4o在無提示情況下依然能夠進行複雜的推理和回答問題。此外,在傳統的5-shot no-CoT MMLU測試中,GPT-4o也創下了87.2%的新高分。這些評估結果均通過新的評估庫進行,確定了測試的可靠性和權威性。這些改進不僅提升了模型的推理能力,還增加了其在廣泛任務中的适用性。

  • 音頻ASR性能:
GPT-4o發力端側應用,OpenAI更在乎情緒價值

在音頻處理方面,相比Whisper-v3,GPT-4o在自動語音識别(ASR)性能上實作了大幅提升,特别是在資源匮乏的語言中,其表現尤為突出。這意味着GPT-4o不僅能夠處理主流語言,還能在更多語言環境下提供高品質的語音識别服務。

  • 音頻翻譯性能:
GPT-4o發力端側應用,OpenAI更在乎情緒價值

同時,在語音翻譯方面,GPT-4o也樹立了新的行業标準,在MLS基準測試中表現優于Whisper-v3,展示了其在跨語言溝通和翻譯方面的卓越能力。

  • M3Exam零樣本結果:
GPT-4o發力端側應用,OpenAI更在乎情緒價值

在多語言和視覺評估方面,GPT-4o在M3Exam基準測試中,在所有語言的測試中均表現優異。這表明GPT-4o不僅在單一語言環境下表現出色,還能夠處理多語言環境下的複雜任務,充分展示了其強大的跨語言了解和處理能力。

  • 視訊了解評估:
GPT-4o發力端側應用,OpenAI更在乎情緒價值

在視覺了解方面,GPT-4o在多個視覺感覺基準上實作了最先進的性能。這些基準測試包括0-shot的MMMU、MathVista和ChartQA等,這意味着GPT-4o在無樣本學習的情況下依然能夠保持高水準的視覺了解和推理能力。這種能力使GPT-4o在處理圖像、圖表和複雜視覺資訊時表現出色,進一步拓展了其在實際應用中的潛力。

GPT-4o在多個技術領域實作了顯著的性能提升。多模态能力讓GPT-4o在更多的應用場景中具有更高的實用性。此外,OpenAI提供了便捷的API接口,使得開發者可以輕松将GPT-4o內建到自己的應用中。此外,GPT-4o支援多種平台和程式設計語言,進一步提升了其使用的靈活性和便利性。

發力端側應用,OpenAI更在乎情緒價值

縱觀整場釋出會,OpenAI的表現并想要非突出技術帶來行業變革,而是讓人工智能技術除了在商業領域為企業帶來的提質增效,也更能夠服務好人們日常的生活。

或許這也是Sam Altman選擇更有親和力的女性CTO Mira Murati來主持本次釋出會的原因之一。

GPT-4o發力端側應用,OpenAI更在乎情緒價值

除了實時語音對話功能,研發負責人Barret還帶來了GPT-4o在實時處理數學問題的高光表現。Barret手寫了一個方程,并通過攝像頭将其拍給GPT-4o,并讓其進行線上指導。在語音助手的一步步指引下,Barret也是非常輕松的解決了該問題。

此外,OpenAI還展示了GPT-4o在代碼、實時翻譯等多種問題,盡管還是在有些測試是出現了錯誤,但整個釋出會都在一個非常輕松的環境下進行。不僅讓企業或研究團隊有了新的研究方向和參考,也讓更多C端使用者感受到AI賦予的全新産品體驗。

GPT-4o發力端側應用,OpenAI更在乎情緒價值

在PC端,OpenAI 推出了一款新的 macOS 應用,旨在簡化工作流程。該應用适用于免費和付費使用者,可無縫內建到使用者在計算機上的操作中。通過簡單的鍵盤快捷鍵,使用者可以立即向 ChatGPT 提問,并在應用程式中截取螢幕截圖進行讨論。

對于 Plus 使用者來說,這款 macOS 應用将提供更多的功能和服務。而未來幾周内,OpenAI 還計劃将該應用推廣到更廣泛的使用者群體,并計劃在今年晚些時候推出适用于 Windows 平台的版本,以滿足不同使用者的需求。

大模型之家認為,在人工智能領域的商業化程序中,C端市場占據了至關重要的地位。OpenAI作為一家領先的AI公司,對C端市場的使用者體驗給予了高度的重視,這種重視不僅是為了滿足使用者需求,更是為其在C端市場的進一步商業化探索鋪平了道路。

在C端市場,使用者需求多樣化且變化迅速,是以也更佳需要智能、人性化的使用者體驗,不僅要優化模型算法,也要提升互動界面的友好性和易用性,確定使用者在使用其産品時能夠享受到流暢、自然的互動體驗。

值得注意的是,OpenAI在2024年谷歌I/O大會前一天選擇“截胡”,不僅展現了OpenAI對于C端多模态大模型市場的重視,也透露出OpenAI在大模型商業競争格局中的積極态度和戰略眼光。

這一行動無疑為OpenAI赢得了更多的行業聲量。在科技行業中,聲量往往與影響力、市場佔有率和商業化潛力緊密相連。OpenAI通過這一政策,成功吸引了大量使用者和媒體的關注,進一步鞏固了其在AI技術領域的領先地位。

更重要的是,OpenAI的這一行動也直接指向了C端多模态大模型的入口。随着技術的不斷進步和應用場景的不斷擴充,多模态大模型已經成為AI領域的重要發展方向。它不僅能夠處理文本、圖像、音頻等多種資訊形式,還能夠實作更加智能、自然的人機互動,為使用者帶來更加便捷、豐富的體驗。是以,誰能夠搶占多模态大模型的入口,誰就有可能在未來的市場競争中占據先機。

從大模型商業競争格局來看,GPT-4o的免費開放無疑加劇了行業内的競争,也展示出了其對于商業擴張的“野心”。顯然,谷歌、Meta等科技巨頭不會坐以待斃,在這場“全面更新”的大模型商戰中,谷歌如何還擊?相信很快就會揭曉。

繼續閱讀