GPT-4o釋出：可讀懂使用者情緒的智能助理如何從科幻走入現實

新京報

2024-05-14 14:58釋出于北京新京報官方賬号

中原標準時間5月14日淩晨，OpenAI在一場26分鐘的直播中釋出了新一代旗艦生成模型GPT-4o，展示了可以毫秒級反應、識别人類情緒進行音視訊互動，可多模态輸入/輸出等一系列新能力。伴随這些能力的還有一個新的桌面版的ChatGPT以及新的使用者界面，首席技術官米拉（Mira Murati）表示，這是為了讓更多人更友善地使用，她宣布了OpenAI的産品理念：免費優先。

釋出會結束後，OpenAI首席執行官山姆·奧特曼在個人社交平台釋出了一個單詞：她（her）。在科幻電影《她》裡，AI助理愛上了人類，而今天，具備新功能、接入GPT-4o的ChatGPT語音助手産品，似乎真的有望讓科幻電影的橋段走入現實。

識别表情語氣、可随時打斷 GPT-4o展示“真”語音助手

“我第一次來直播的釋出會，有點緊張。”當OpenAI前沿研究部門主管馬克（Mark Chen）通過手機對ChatGPT說話時，ChatGPT回答，“要不你深呼吸一下？”

“好的，我深呼吸。”

“慢一點，馬克，你不是吸塵器。”

——這是發生在直播中的一幕，通過直播，OpenAI全方位展示了接入GPT-4o後，ChatGPT是如何識别使用者語音中的情緒的。此後，馬克還示範了ChatGPT如何用不同的聲音朗讀AI生成的故事，包括超級戲劇化的朗誦、機器人音調，甚至唱歌。

OpenAI前沿研究部門主管馬克展示GPT-4o的實時語音互動能力。

這似乎已經不同于“傳統”的語音助手技術了，有專家表示，目前市面上一些“語音助手”實際的技術邏輯是把聽到的語音轉換成文字，使用文字回答後再轉換成語音回複給使用者，是以這類語音助手無法聽出語音中包含的情緒，并且存在延遲的問題，但根據今日的示範，OpenAI似乎解決了這一問題。

根據OpenAI釋出在官網的最新部落格文章，在GPT-4o之前，語音模式與ChatGPT對話，平均延遲為2.8秒（GPT-3.5）和5.4秒（GPT-4）。而現在，GPT-4o最快可以在 232 毫秒的時間内響應音頻輸入，平均響應時長320毫秒，與人類相似。據了解，GPT-4o是單獨訓練的新模型，可以端到端地處理文本、視覺和音頻，這意味着所有輸入和輸出都由同一個神經網絡處理。

除了語音方面的情緒識别，GPT-4o還擁有實時視覺功能，根據OpenAI研究員巴雷特（Barret Zoph）的示範，ChatGPT通過手機攝像頭幫助他實時解了一個方程，就像一名真實的數學老師在旁邊指導每一個解題步驟。“每當你為數學焦頭爛額的時候，我就在你身邊。”ChatGPT說。

ChatGPT甚至還能通過前置攝像頭觀察使用者的面部表情，分析其情緒。在回答網友提問“ChatGPT能識别你的表情嗎？”這一問題時，巴雷特把手機攝像頭對準自己，然後ChatGPT回答，“一個大大的微笑，你看起來非常開心。”

ChatGPT識别OpenAI研究員巴雷特的情緒。

此外，本次示範還展示了GPT-4o的代碼能力、實時翻譯能力等。奧特曼介紹，GPT-4o中的“o”代表“omni（全面、全能）”，因為該模型同時具備文本、圖檔、視訊和語音方面的能力。

資料顯示，GPT-4o 在英國文本和代碼上的性能與 GPT-4 Turbo 的性能相比對，但在非英國文本上的性能顯著提高，同時 API（接口）的速度也更快。

同時，GPT-4o成本也有所降低，官網顯示，GPT-4o輸入、輸出每1M token（語句機關）收費0.005美元、0.015美元，而GPT-4 Turbo輸入、輸出每1M token收費0.01美元、0.03美元，相比之下GPT-4o的成本降低了50%。

新互動、新界面下的OpenAI願景：讓更多人使用産品免費優先

接入新版大模型後，ChatGPT可以接收文本、音頻和圖像的任意組合作為輸入，并實時生成文本、音頻和圖像的任意組合輸出。

在今天的第一輪示範中，ChatGPT是在手機端直接使用的。值得注意的是，近日還有消息傳出蘋果與OpenAI商談，以便在下一代iPhone作業系統中使用ChatGPT功能。

此外，ChatGPT還在蘋果電腦中擁有了一個“桌面版本”，以及新的使用者界面。通過鍵盤快捷鍵（Option + Space），使用者可以立即向 ChatGPT 提問，此外，使用者還可以直接在應用程式中截取螢幕并進行讨論。今年晚些時候，OpenAI也會推出Windows版本。

奧特曼對此發文稱，“新的語音（和視訊）模式是我用過的最好的電腦界面。這感覺就像是電影裡的AI，這是真的讓我有點驚訝。達到人類級别的響應時間和表達能力是一個很大的變化。”

“老ChatGPT界面顯示了語言的可能性，而新界面給人的感覺是本質上不同的。它是快速，聰明，有趣，自然和有益的。對我來說，和電腦說話從來沒有真正自然的感覺，而現在是了。随着我們添加（可選）個性化、通路您的資訊、代表您采取行動的能力，以及更多，我真的可以看到一個令人興奮的未來，我們能夠使用計算機做比以往任何時候都要多得多的事情。”奧特曼說。

此外，米拉和奧特曼都強調了OpenAI的“免費”理念。

米拉表示，GPT-4o的特别之處在于它以極為自然的互動方式為每個人帶來了 GPT-4 級别的智能，包括免費使用者，“以後OpenAI 做産品就是要免費優先，為的就是讓更多的人能使用。”

奧特曼也發文強調了“免費”的重要性，“我們的一個關鍵使命就是将極其有效的AI産品免費提供給人們，我很驕傲我們做了世界上最棒的大模型并且能在ChatGPT上不用看廣告就免費使用它。”

奧特曼表示，他和團隊成員建立OpenAI時最初的想法是建立人工智能，并用它為世界創造各種各樣的好處，“而現在看來，我們将創造AI，然後其他人将使用這個AI來創造各種各樣的令人驚歎的東西，讓我們大家都從中受益。”

“我們是一個企業，我們期望能找到收費的方式并幫我們為數十億人提供免費的、優秀的AI服務。”奧特曼說。

不過，貝殼财經記者5月14日登入網頁版ChatGPT發現，内置大模型選項仍然隻有GPT-3.5和GPT-4兩種，并未看到免費使用GPT-4o的選項。OpenAI方面稱，在即将到來的幾周裡，使用者将無需采取任何行動，即可自動接收到GPT-4o的更新。

5月14日記者登入網頁版ChatGPT的截圖。

值得注意的是，此次OpenAI的釋出時間剛好“踩”在其競争對手谷歌的釋出會之前，有聲音認為OpenAI甯可先推出GPT-4o而非人們此前預期的GPT-5，主要就是出于競争目的考慮。

“比較讓人失望的是，這次OpenAI沒有釋出GPT-5，連GPT-4.5都沒看到。OpenAI釋出了一系列應用，最重要的是釋出了語音助手，由于使用了端到端大模型技術，體驗遠超Siri。OpenAI釋出應用，恰恰說明應用在人工智能領域大有可為。目前看來，GPT-5可能還要‘難産’一段時間。”獵豹移動董事長兼CEO傅盛說。

記者聯系郵箱：[email protected]

新京報貝殼财經記者羅亦丹

編輯李铮

校對劉軍

檢視原圖 772K