天天看點

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

作者:替代視訊共享細菌

OpenAI真憋了個大的。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

美國當地時間5月13日上午10點(中原標準時間5月14日淩晨1點),OpenAI春季釋出會如約而至,沒有GPT-5,沒有搜尋引擎,但推出了一個新的旗艦模型:GPT-4o。

“o”是Omni的縮寫,意為“全能”,接受文本、音頻和圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。

從直播示範來看,GPT-4o的多模态、實時互動能力,已經足夠驚豔到讓人直呼科幻電影《her》真的變成了現實。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

值得劃重點的是,GPT-4o和ChatGPT Plus會員版所有的能力,将免費向所有使用者開放!

不過,GPT-4o的新語音模式在未來幾周内會優先對ChatGPT Plus會員開放。

此外,GPT-4o也向開發者開放了API。與GPT-4 Turbo相比,GPT-4o價格減半,但速度卻快了2倍,速率限制高出5倍。OpenAI稱,接下來會向部分API合作夥伴提供新的音頻和視訊功能支援。

GPT-4o到底有多強?昨晚“頭号AI玩家”全程圍觀直播,現在讓我們來一起回顧下其中細節。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

GPT-4o驚豔面世,核心能力全盤點

01.零延遲實時語音互動,自然真實富有情感

首先是零延遲實時語音互動,在這個環節,GPT表現得像是富有情感的真人。

在直播示範過程中,示範者Mark對GPT-4o說:“我正在做demo,我有點緊張。”然後他開始故意喘息得非常急促,GPT-4o很快識别出了他的呼吸聲,告訴他:“哦,哦,哦,别緊張,慢下來,你不是個吸塵器。”并指導他調整呼吸。

整個過程中,GPT-4o的語氣都非常自然、真實、富有情感,你可以随時打斷它,要求它調整語氣和音調。

另一位示範者讓GPT-4o講一個關于“機器人與愛”的睡前故事。剛講一句,Mark Chen就打斷了它,說它講故事的語氣不夠有情感。GPT-4o調整過後,Mark Chen又很快打斷它,要求它情緒再飽滿再drama一點,然後GPT-4o的情緒又上了一個台階,甚至可以說是浮誇的程度。

然後,示範者要求它切換成機器人聲音,GPT-4o的聲音和語氣立馬變得冷漠和機械。

這還沒完,示範者又讓GPT-4o用唱歌的方式把故事講完,GPT-4o當場把故事改編成了一首歌,并直接唱了出來,節目效果拉滿。

相比之下,ChatGPT的語音模式平均延遲為2.8秒(GPT-3.5)和5.4秒(GPT-4),這無疑會破壞對話的沉浸感。

此外,由于模型需要先将語音轉錄為文本,GPT-3.5或GPT-4接收處理并輸出文本,再将文本轉換為語音,是以GPT-3.5或GPT-4無法直接獲知語氣、音調、背景噪音等資訊,也無法輸出笑聲、歌聲或表達情感。

02.通過攝像頭視覺傳達内容,線上解方程式

除了語音互動外,還可以通過視覺+語音的形式,如實時視訊、上傳圖檔等方式,與GPT-4o進行多模态互動。

釋出會上,OpenAI展示了GPT-4o通過多模态能力幫助使用者解決數學題的完整過程。

,時長02:05

視覺解析圖形報表也手到擒來。OpenAI官方部落格中,使用者一邊和GPT-4o語音,一邊在平闆上畫圖,根據語音資訊,解幾何數學題。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

03.更智能的保姆級程式設計助手

用GPT-4o來實時程式設計,也比以前的純文字形式或上傳圖檔進行文字對話的方式,更有互動感。

官方示範中, OpenAI使用電腦桌面端GPT-4o來檢查代碼,它不僅可以解釋代碼的作用,還可以告訴使用者如果調整特定代碼會發生什麼。

通過一步又一步的實時問答溝通,GPT-4o可以幫助使用者提高程式設計效率,整個過程相當絲滑。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

超強的實時語音+視覺互動能力,運用在程式設計輔助上,以後還要啥程式員鼓勵師。

04.

視訊通話,實時分析面部情緒

示範者還在X上實時收集了網友的回報,其中有人提出挑戰:打開攝像頭,看GPT-4o能不能實時分析面部情緒。

示範者先是打開了後置攝像頭,拍到的是面前的桌子,GPT-4o立刻分析道:“你看起來是個桌子。”

在切換為前置攝影頭後,示範者的臉出現在與GPT-4o進行互動的界面,一整個打視訊電話的即視感。

GPT-4o立刻說:“你看起來非常開心,有大大的笑容,你想分享一下讓你這麼開心的原因嗎?”語氣中甚至能聽出一絲好奇和試探。

示範者回答道:“因為我在做實時示範,讓大家看看你有多出色。”

GPT-4o帶着笑聲說:“拜托,别害我臉紅了。”

看到這,“頭号AI玩家”腦海裡不禁回響起Samantha與Theodore之間的戀人絮語。

《Her》真的變成現實了。

05.同聲傳譯,支援多國語言

目前,ChatGPT支援超過50種語言。據介紹,GPT-4o的語言能力在品質和速度上都得到了改進。

官方示範中,一個人說英語,另一個人說西班牙語,通過語音訓示GPT-4o實時翻譯,兩人實作了流暢的溝通。GPT-4o基本上隻在開頭停頓了1~2秒,在句子中沒有出現停頓、卡殼等現象。

,時長01:07

不過,有點bug的是,由于GPT-4o是中間的溝通媒介,導緻兩位對話者并沒有直接看對方,而是都看向了手機。未來或許會有新型裝置出現,利用AI技術讓使用不同語言的人們能夠更自然地進行交流。

變革人機互動,但還不是GPT-5

OpenAI首席技術官Mira Murati在直播中介紹,GPT-4o是标志性産品GPT-4模型的一個疊代版本:提供了GPT-4級别的智能,但速度更快,并改進了其在文本、語音和視覺方面的能力。

OpenAI首席執行官Sam Altman發帖稱該模型是“原生多模态”的,在文本、視覺和音頻上端到端地訓練了一個新模型,GPT-4o所有輸入和輸出都由同一個神經網絡處理。

根據官方部落格介紹,在基準測試中,GPT-4o在文本、推理和編碼智能方面達到了GPT-4 Turbo級别的性能,同時在多語言、音頻和視覺能力上設定了新的标準。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

圖源:OpenAI官網

OpenAI計劃在未來幾周内逐漸推出GPT-4o的各項能力。其中,文本和圖像能力将從釋出會後當天開始在ChatGPT中推出,Plus使用者可以搶先體驗,并擁有相比免費使用者多高達5倍的消息限制。帶有GPT-4o新版本語音模式也将在未來幾周内在ChatGPT Plus中推出。

針對免費使用者,OpenAI也主打一個“雨露均沾”,在接下來的幾周内會面向所有使用者,推出GPT-4o及其相關功能:

1.體驗GPT-4級智能

2.從模型和網頁擷取響應(聯網了)

3.分析資料并建立圖表

4.支援上傳照片進行互動

5.上傳檔案以幫助總結、撰寫或分析

6.發現和使用GPT和GPT商店

7.可自定義控制的ChatGPT“記憶體”(擁有更強的“記憶力”)

目前已經體驗到GPT-4o的玩家告訴我們:體驗太絲滑了!後續“頭号AI玩家”也将跟進更詳細的玩法評測。

當然,炸場的不隻是OpenAI,在這個被稱為全球“AI月”的5月,肉眼可見地,我們還将迎來谷歌的I/O開發者大會、微軟Build年度開發者大會、英偉達一季報釋出等AI領域重要事件。

此外,預計6月10日舉辦的蘋果WWDC大會或将推出全新AI應用商店,并可能更新Siri語音助手,引入新的生成式AI系統。

試猜想,如果蘋果真的順利與OpenAI達成合作,GPT-4o被引入到iPhone裝置端,取代(或更新)Siri,似乎也是順理成章的事。

總的來說,相比圖形使用者界面,GPT-4o近乎實時的語音和視訊互動體驗,标志着人機互動迎來了新的變革,更自然、更直覺的互動體驗,已經非常接近我們在科幻片裡看到的人工智能,斯派克·瓊斯導演的科幻電影《Her》也是以被頻頻提及。

獵豹移動董事長兼CEO傅盛甚至連夜錄制視訊誇OpenAI在“大家都在拼大模型的參數和性能時,OpenAI殺了個回馬槍,認真地做起了整合和應用”。

OpenAI一夜之間革了Siri和同傳的命,GPT-4o五大核心能力炸場!

看完今天OpenAI的釋出,很難想象谷歌明天得拿出多大的殺手锏,才能擺脫“AI屆汪峰”的命運

繼續閱讀