天天看點

GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

新京報

2024-05-14 14:58釋出于北京新京報官方賬号

中原標準時間5月14日淩晨,OpenAI在一場26分鐘的直播中釋出了新一代旗艦生成模型GPT-4o,展示了可以毫秒級反應、識别人類情緒進行音視訊互動,可多模态輸入/輸出等一系列新能力。伴随這些能力的還有一個新的桌面版的ChatGPT以及新的使用者界面,首席技術官米拉(Mira Murati)表示,這是為了讓更多人更友善地使用,她宣布了OpenAI的産品理念:免費優先。

釋出會結束後,OpenAI首席執行官山姆·奧特曼在個人社交平台釋出了一個單詞:她(her)。在科幻電影《她》裡,AI助理愛上了人類,而今天,具備新功能、接入GPT-4o的ChatGPT語音助手産品,似乎真的有望讓科幻電影的橋段走入現實。

識别表情語氣、可随時打斷 GPT-4o展示“真”語音助手

“我第一次來直播的釋出會,有點緊張。”當OpenAI前沿研究部門主管馬克(Mark Chen)通過手機對ChatGPT說話時,ChatGPT回答,“要不你深呼吸一下?”

“好的,我深呼吸。”

“慢一點,馬克,你不是吸塵器。”

——這是發生在直播中的一幕,通過直播,OpenAI全方位展示了接入GPT-4o後,ChatGPT是如何識别使用者語音中的情緒的。此後,馬克還示範了ChatGPT如何用不同的聲音朗讀AI生成的故事,包括超級戲劇化的朗誦、機器人音調,甚至唱歌。

GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

OpenAI前沿研究部門主管馬克展示GPT-4o的實時語音互動能力。

這似乎已經不同于“傳統”的語音助手技術了,有專家表示,目前市面上一些“語音助手”實際的技術邏輯是把聽到的語音轉換成文字,使用文字回答後再轉換成語音回複給使用者,是以這類語音助手無法聽出語音中包含的情緒,并且存在延遲的問題,但根據今日的示範,OpenAI似乎解決了這一問題。

根據OpenAI釋出在官網的最新部落格文章,在GPT-4o之前,語音模式與ChatGPT對話,平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4)。而現在,GPT-4o最快可以在 232 毫秒的時間内響應音頻輸入,平均響應時長320毫秒,與人類相似。據了解,GPT-4o是單獨訓練的新模型,可以端到端地處理文本、視覺和音頻,這意味着所有輸入和輸出都由同一個神經網絡處理。 

除了語音方面的情緒識别,GPT-4o還擁有實時視覺功能,根據OpenAI研究員巴雷特(Barret Zoph)的示範,ChatGPT通過手機攝像頭幫助他實時解了一個方程,就像一名真實的數學老師在旁邊指導每一個解題步驟。“每當你為數學焦頭爛額的時候,我就在你身邊。”ChatGPT說。

ChatGPT甚至還能通過前置攝像頭觀察使用者的面部表情,分析其情緒。在回答網友提問“ChatGPT能識别你的表情嗎?”這一問題時,巴雷特把手機攝像頭對準自己,然後ChatGPT回答,“一個大大的微笑,你看起來非常開心。”

GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

ChatGPT識别OpenAI研究員巴雷特的情緒。 

此外,本次示範還展示了GPT-4o的代碼能力、實時翻譯能力等。奧特曼介紹,GPT-4o中的“o”代表“omni(全面、全能)”,因為該模型同時具備文本、圖檔、視訊和語音方面的能力。

資料顯示,GPT-4o 在英國文本和代碼上的性能與 GPT-4 Turbo 的性能相比對,但在非英國文本上的性能顯著提高,同時 API(接口)的速度也更快。

同時,GPT-4o成本也有所降低,官網顯示,GPT-4o輸入、輸出每1M token(語句機關)收費0.005美元、0.015美元,而GPT-4 Turbo輸入、輸出每1M token收費0.01美元、0.03美元,相比之下GPT-4o的成本降低了50%。

新互動、新界面下的OpenAI願景:讓更多人使用 産品免費優先

接入新版大模型後,ChatGPT可以接收文本、音頻和圖像的任意組合作為輸入,并實時生成文本、音頻和圖像的任意組合輸出。

在今天的第一輪示範中,ChatGPT是在手機端直接使用的。值得注意的是,近日還有消息傳出蘋果與OpenAI商談,以便在下一代iPhone作業系統中使用ChatGPT功能。

此外,ChatGPT還在蘋果電腦中擁有了一個“桌面版本”,以及新的使用者界面。通過鍵盤快捷鍵(Option + Space),使用者可以立即向 ChatGPT 提問,此外,使用者還可以直接在應用程式中截取螢幕并進行讨論。今年晚些時候,OpenAI也會推出Windows版本。

奧特曼對此發文稱,“新的語音(和視訊)模式是我用過的最好的電腦界面。這感覺就像是電影裡的AI,這是真的讓我有點驚訝。達到人類級别的響應時間和表達能力是一個很大的變化。”

“老ChatGPT界面顯示了語言的可能性,而新界面給人的感覺是本質上不同的。它是快速,聰明,有趣,自然和有益的。對我來說,和電腦說話從來沒有真正自然的感覺,而現在是了。随着我們添加(可選)個性化、通路您的資訊、代表您采取行動的能力,以及更多,我真的可以看到一個令人興奮的未來,我們能夠使用計算機做比以往任何時候都要多得多的事情。”奧特曼說。

此外,米拉和奧特曼都強調了OpenAI的“免費”理念。

米拉表示,GPT-4o的特别之處在于它以極為自然的互動方式為每個人帶來了 GPT-4 級别的智能,包括免費使用者,“以後OpenAI 做産品就是要免費優先,為的就是讓更多的人能使用。”

奧特曼也發文強調了“免費”的重要性,“我們的一個關鍵使命就是将極其有效的AI産品免費提供給人們,我很驕傲我們做了世界上最棒的大模型并且能在ChatGPT上不用看廣告就免費使用它。”

奧特曼表示,他和團隊成員建立OpenAI時最初的想法是建立人工智能,并用它為世界創造各種各樣的好處,“而現在看來,我們将創造AI,然後其他人将使用這個AI來創造各種各樣的令人驚歎的東西,讓我們大家都從中受益。”

“我們是一個企業,我們期望能找到收費的方式并幫我們為數十億人提供免費的、優秀的AI服務。”奧特曼說。

不過,貝殼财經記者5月14日登入網頁版ChatGPT發現,内置大模型選項仍然隻有GPT-3.5和GPT-4兩種,并未看到免費使用GPT-4o的選項。OpenAI方面稱,在即将到來的幾周裡,使用者将無需采取任何行動,即可自動接收到GPT-4o的更新。

GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

5月14日記者登入網頁版ChatGPT的截圖。

值得注意的是,此次OpenAI的釋出時間剛好“踩”在其競争對手谷歌的釋出會之前,有聲音認為OpenAI甯可先推出GPT-4o而非人們此前預期的GPT-5,主要就是出于競争目的考慮。

“比較讓人失望的是,這次OpenAI沒有釋出GPT-5,連GPT-4.5都沒看到。OpenAI釋出了一系列應用,最重要的是釋出了語音助手,由于使用了端到端大模型技術,體驗遠超Siri。OpenAI釋出應用,恰恰說明應用在人工智能領域大有可為。目前看來,GPT-5可能還要‘難産’一段時間。”獵豹移動董事長兼CEO傅盛說。

記者聯系郵箱:[email protected]

新京報貝殼财經記者 羅亦丹 

編輯 李铮 

校對 劉軍

檢視原圖 772K

  • GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實
  • GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實
  • GPT-4o釋出:可讀懂使用者情緒的智能助理如何從科幻走入現實

繼續閱讀