天天看點

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

作者:資料猿
OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

如果說黃仁勳(Jensen Huang)是科技屆的泰勒·斯威夫特,以親和力和号召力獲得了一衆擁趸,那薩姆·奧爾特曼(Sam Altman)就有些像AI屆的金·卡戴珊,永遠擅長制造話題和搶風頭。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

最近兩周,關于OpenAI将要推出搜尋引擎的傳言沸沸揚揚,所有的聚光燈都投射在奧爾特曼身上。正當大家期待值快達到頂峰時,這位矽谷的“當紅炸子雞”上周五突然跳出來,宣布OpenAI的春季産品釋出會将在5月10日進行,正好是谷歌I/O開發者大會的前一天。他還在推特上承諾将帶來一些“具有魔力”的更新,這樣一套“營銷組合拳”不僅為OpenAI造足了勢頭,也使得谷歌的“預熱聲”瞬間啞火。

那麼在周一的釋出會上,OpenAI究竟推出了什麼“魔力(magic)”産品?

GPT-4o,OpenAI首款能分析情緒的多模态大型語言模型

美西時間上午10點整,OpenAI首席技術官米拉·穆拉提(Mira Murati)進入了直播室,向觀衆介紹了這次春季大更新,其中包括桌面版本的ChatGPT,更新的使用者界面,以及最重要的,新的旗艦模型—GPT-4o。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

(穆拉提在釋出會現場)

GPT-4o中的“o”代表“Omnimodal”,顧名思義,這是一個基于GPT-4之上的多模态大模型。

更值得關注的是,GPT-4o能夠與使用者進行多樣化的語氣互動,并精準捕捉到使用者的情緒變化,這是一大進步。與之前版本僅通過“語音轉文字(voice-to-text)”來識别語音輸入不同,GPT-4o能夠實時處理語音輸入并響應使用者的情感和語氣。

在直播過程中,兩位OpenAI的員工向大家展示了GPT-4o的更新細節。

1.感覺使用者情緒:前沿研究部門主管陳信翰(Mark Chen)讓ChatGPT-4o聆聽他的呼吸,聊天機器人偵測到他急促的呼吸,并幽默地建議他不要像吸塵器那樣呼吸,要放慢速度。随後Mark深呼吸一次,GPT-4o則表示這才是正确的呼吸方式。

2.具備不同情緒的聲音:陳信翰示範了ChatGPT-4o如何用不同的聲音朗讀AI生成的故事,包括超級戲劇化的朗誦、機器人音調,甚至唱歌。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

(ChatGPT-4o根據訓示變換語調讓大家捧腹大笑)

3.實時視覺功能:研究員巴雷特·佐夫(Barret Zoph)示範了如何讓ChatGPT-4o通過手機攝像頭實時解決數學問題,仿佛一位真實的數學老師在旁邊指導每一個解題步驟。此外,ChatGPT-4o還能通過前置攝像頭觀察使用者的面部表情,分析其情緒。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

(巴雷特·佐夫展示在ChatGPT-4o的逐漸指導下解方程式)

4.更即時的語音互動:ChatGPT-4o的響應時間得到縮短,與使用者的互動更加即時。穆拉提和陳信翰利用新的聊天機器人展示了跨語言的實時翻譯功能,能夠在英語和意大利語之間無縫轉換。

由此可見,這次更新的重點在于使聊天機器人不再那麼機械冷漠,而是更加接近真實人類,能夠了解并表達情緒。那麼,GPT-4o是如何實作情感識别的呢?

OpenAI目前還沒有公布更多的技術細節,但根據其在官網的概述,在GPT-4o之前,使用ChatGPT的語音模式時,需要通過三個互相獨立的模型來進行接力處理:

1. 第一個模型将音頻轉換為文本;

2. 接着由GPT-3.5或GPT-4處理文本輸入并輸出文本;

3. 最後一個模型再将文本轉換回音頻。

這種處理方式常導緻資訊的大量丢失,例如無法捕捉到語調、識别多個說話者或背景噪音,也無法生成笑聲、歌唱或其他情感表達。

GPT-4o的創新之處在于,它是OpenAI的首個整合文本、視覺和音頻多模态輸入與輸出的模型。通過端到端地訓練一個統一的新模型,實作了所有輸入和輸出的處理都由同一個神經網絡完成。

除了多模态輸入輸出,GPT-4o還具備更快的響應速度:能夠在短至232毫秒内響應音頻輸入,平均響應時間為320毫秒,接近人類在對話中的響應時間。

GPT-4o在英國文本和代碼上的性能與GPT-4 Turbo性能相當,在非英國文本上的性能顯著提高,同時API的速度也更快,成本降低了50%。與現有模型相比,GPT-4o在視覺和音頻了解方面尤其出色。

為了給大家一個更直覺的感受,我們讓ChatGPT-4生成了一個對比GPT-4o和GPT-4 Turbo的表格:

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

科技部落客“All About AI”也在YouTube上展示了GPT-4o和GPT-4 Turbo的反應速度(下圖)。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

通過同時向GPT-4o(左)和GPT-4 Turbo(右)提出相同要求—“寫三段關于19世紀在巴黎生活的内容”—我們可以觀察到當GPT-4o已經完成處理并做出回應時,GPT-4 Turbo仍在進行輸出處理。

GPT-4o在5216毫秒(5.216秒)内處理了574個Token,約等于 110 Token/秒;GPT-4 Turbo在23442毫秒(23.442秒)内處理了474個Token,約等于20 Token/秒。前者的處理速度是後者的大約5.44倍。

釋出會之後,一名OpenAI的研究員在自己的推文中證明,此前出現在測試網站上的神秘 GPT-2 聊天機器人确實就是GPT-4o。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

“GPT-4o 是我們最新的前沿模型。我們已經在LMSys上測試了一個版本,也就是 im-also-a-good-gpt2-chatbot。” 威廉·費杜斯(WIlliam Fedus)在自己的推特上介紹到,并且得到了奧爾特曼的轉發。

“ELO分數最終可能受到提示難度的限制。我們發現在更難的提示集上 — 尤其是程式設計 — GPT-4o 的ELO比我們之前最好的模型高出100分,”這位工程師補充道。

從下圖可以看出,GPT-4o(也就是im-also-a-good-gpt2-chatbot)的表現一騎絕塵,遠高于其他大模型。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

穆拉提還在春季釋出會上宣布,GPT-4o的文本和圖像功能已開始向付費的ChatGPT Plus和Teams使用者提供,并将很快推廣至企業使用者。同時,免費使用者也将逐漸獲得使用權限,但需受到速率的限制。GPT-4o的語音功能預計将在未來幾周内向使用者開放。

目前,開發者已能通過API使用GPT-4o的文本和視覺模式。

此外,OpenAI還對ChatGPT的使用者界面(UI)進行了優化,并且推出了适用于macOS系統的ChatGPT應用程式,已向付費使用者開放。該公司表示今年晚些時候還将推出Windows版本的ChatGPT應用程式。

蘋果将用GPT-4o取代自家語音助手Siri?

GPT-4o的推出帶動了蘋果股價小幅上漲。

上周五,彭博社報道稱蘋果正考慮在下一代iOS18系統中內建ChatGPT技術。如果與OpenAI達成協定,蘋果可能會推出基于ChatGPT的聊天助理,作為公司計劃在6月釋出的一系列新人工智能功能之一。

OpenAI推出最新大模型“GPT-4o”,你的快樂悲傷它都能讀懂

(彭博社報道)

多年來,蘋果一直是包括沃倫·巴菲特在内的頂級投資者和投資機構青睐的科技股,并且是市值第一大科技公司,但近年來漲幅卻跑輸其他大科技公司。

今年以來,蘋果股價下跌了2%左右,而微軟股價則上漲了10% 以上。得益于其在AI領域的領先地位(特别是與OpenAI的深度合作)以及在雲業務和辦公套件中加入AI技術,微軟已成為全球市值最高的公司,這一領先地位看似還将持續一段時間。

縱觀其他Magnificent 7公司的市值:谷歌憑借Gemini增長了20%,擁有開源大語言模型LLaMA的Meta上漲了32%,投資了明星AI初創企業Antropic的亞馬遜增長了22%;被譽為AI行業“軍火商”的晶片公司英偉達的市值更是增長了82%之多。(注:Magnificent 7是指7家擁有壟斷/寡頭地位、定價能力、長期盈利能力的科技公司,即微軟、谷歌、Meta、亞馬遜、英偉達、蘋果和特斯拉。)

分析師們普遍認為,蘋果的增速放緩主要歸因于核心業務iPhone增長疲軟,以及缺乏新的AI産品線。雖然Siri作為AI語音助手于2011年推出,但在準确性和實用性方面遠遜于谷歌、亞馬遜和OpenAI的競品。

另一方面,手機業務的競争對手們也已先于蘋果在手機中引入新的AI功能。例如,三星電子最近推出的高端Galaxy手機采用了最新的生成式AI技術,提供實時語言翻譯、總結筆記和編輯照片等功能。

面對來自四面八方的壓力,蘋果在今年二月宣布取消長達十年的造車計劃,并将部分員工轉至生成式AI團隊,标志着AI将成為公司未來發展的重點。

在5月2日與分析師舉行的電話會議上,蒂姆·庫克稱憑借将硬體、軟體和服務無縫內建的能力,蘋果有優勢在AI時代脫穎而出。這位首席執行官在去年就表示使用過ChatGPT,并認為當時的ChatGPT還有很多問題需要解決。他反複強調,蘋果将在“非常深思熟慮的基礎上”引入新的AI功能,這可能解釋了為什麼蘋果在推出AI産品線方面進展緩慢。

那麼GPT-4o是否達到了庫克的标準?相信在6月份蘋果舉辦的年度全球開發者大會,我們能夠見分曉。

繼續閱讀