天天看點

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

作者:智東西
OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

作者 | 智東西編輯部

頂尖AI産品的對決,将在這兩天集中上演。

智東西5月14日報道,今日淩晨1點,搶在谷歌年度開發者大會Google I/O開幕前,OpenAI舉辦春季線上直播,宣布将推出桌面版ChatGPT,并釋出全新旗艦AI模型GPT-4o。

GPT-4o向所有人免費開放,可實時跨文本、音頻、視覺(圖像與視訊)進行推理,API定價隻有GPT-4 Turbo的一半,速度達到GPT-4 Turbo的2倍。付費的ChatGPT Plus使用者将獲得5倍調用額度,并能最早通路其全新macOS桌面App和下一代語音及視訊功能。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

這次OpenAI對AI聊天機器人ChatGPT的更新依然“直擊人心”,實時語音翻譯能力自然流暢,感覺能直接取代同聲傳譯了。

不僅反應快、回答準,它還能按要求改變說話語氣,從冰冷機械到幽默嬌羞都信手拈來,而且能随時高歌一曲,聽起來與真人無異。

除了語音聊天外,GPT-4o可以進行實時視訊互動了!比如通過視訊影像了解線性方程,還學會了“看臉色行事”,能通過人的表情和語調了解并判斷出人的情緒。

視訊加載中...

▲GPT-4o識别了視訊中的文字并作出嬌羞的反應

更有甚者,它能直接看你的螢幕,并根據看到的内容回答你的提問。比如當你展示一段代碼,它會進行了解并告訴你代碼有什麼問題,或者解讀資料圖表有什麼資訊。

整個釋出節奏極快,隻有大約半小時,期間展示了很多蘋果裝置,看來OpenAI與蘋果的密切合作已經闆上釘釘。

免費和付費使用者均可使用新功能。即日起開始的測試階段僅限于ChatGPT Plus使用者,未來幾周内向更廣泛使用者開放。其文本和圖像輸入今日推出,語音和視訊功能将在未來幾周推出。

另外值得一提的是,此次春季釋出的主講人不是OpenAI聯合創始人兼CEO Sam Altman,而是OpenAI CTO Mira Murati。

Altman還在社交平台上神秘地留下一句“her”,似乎在暗示ChatGPT實作了經典電影《她》(Her)中像人類一樣“有血有肉”的AI。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

網友Dogan Ural對此評論:“你終于做到了。”并配了一張将電影《她》劇照中的AI“換頭”成OpenAI的梗圖。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

一、OpenAI“全能”大模型上線!性能比肩GPT-4 Turbo,免費開放,API定價暴降

GPT-4o的o代表着“omni(全能)”。Murati稱,GPT-4o為每個使用者都提供了GPT-4級别的智能,同時還改進了GPT-4在文本、視覺以及音頻方面的能力。

此前,GPT-4經過圖像、文本資料的訓練,可以分析圖像和文本從中提取文本或者描述畫面内容等,在此之上,GPT-4o增加了語音功能,使得使用者與ChatGPT的互動更接近人與人的互動體驗。GPT-4o在英國文本和代碼上的性能與GPT-4 Turbo的性能相比對,在非英國文本上的性能有顯著提高。

Murati說,GPT-4o的釋出意味着OpenAI在大模型的易用性方面邁出了一大步,其正在改變人機互動的協作模式。她談道,在人們的互動中,如輕松打斷對方、對話中包含多個聲音的背景噪音、了解語調等對模型而言都非常複雜。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

此前,使用者使用語音功能與ChatGPT對話時,GPT-3.5的平均延遲為2.8秒,GPT-4為5.4秒。語音功能由三個獨立模型組成的Pipeline:一個簡單模型将音頻轉錄為文本,GPT-3.5或GPT-4接收文本并輸出文本,第三個簡單模型将該文本轉換回音頻。

這個過程中,GPT-4會丢失大量資訊,如無法直接觀察音調、多個說話者或背景噪音,也無法輸出笑聲、歌唱或表達情感等。

借助GPT-4o,OpenAI通過跨文本、視覺和音頻端到端訓練了新模型,使得所有輸入和輸出都由同一神經網絡處理,進一步降低了延遲。

Murati談道,OpenAI的一個重要使命是将先進的AI工具免費提供給每個人。

她還宣布OpenAI将推出桌面版ChatGPT,其可以被輕松內建到使用者的工作流程中。同時,為了讓使用者與ChatGPT互動更加容易、自然,OpenAI還更新了使用者界面,使得使用者無需關注使用者界面,隻需要關注如何協作。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

目前,已經有超過1億使用者使用ChatGPT來工作、學習,OpenAI的更進階産品目前隻提供給付費使用者。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

從今天起,使用者能免費使用GPTs和GPT Store。Murati透露,已經有超百萬使用者使用GPTs創造了令人驚歎的體驗,這些是适用于GPT Store中提供的特定使用情形的自定義GPTs。

現在,這些使用者也可以使用視覺能力,能夠上傳螢幕截圖、照片、包含文本和圖像的文章等,同時還可以基于其記憶能力,讓對話更有連續性。同時,使用者也可以使用“浏覽”功能搜尋對話中的實時資訊,使用“進階資料分析”功能分析上傳的圖表或資訊等。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

OpenAI還改進了50種不同語言的品質和速度。與免費使用者相比,付費使用者将獲得5倍調用額度。

此外,GPT-4o開放了API,開發人員可以基于此進行AI應用開發及部署。與GPT-4-Turbo相比,GPT-4o的速度快2倍,價格便宜50%,速率限制高達5倍。

Murati強調說,如何通過既有用又安全的方式将技術呈現出來非常有挑戰性,OpenAI的團隊一直在研究如何建立針對技術濫用的緩解措施。

二、現場示範語音對話五大能力,代碼、數學題、實時翻譯,還能提供情緒價值

OpenAI前沿研究主管Mark Chen和後期訓練團隊負責人Barret Zoph在現場對實時語音對話功能進行了示範。通過點選ChatGPT右下角小圖示,使用者可以進入語音互動模式。

基于GPT-4o的語音互動有什麼與衆不同的地方?

Chen稱,它相比之前的語音模式有幾個關鍵差別:首先,使用者可以打斷模型,不必等到它結束才開始說話;其次,模型具有實時響應能力,在使用者等待模型給出響應之前不會有尴尬的時延;最後,該模型具有情緒感覺能力,還能夠生成各種不同情緒風格的語音。

1、聲情并茂講故事,臨場邊唱歌邊創作

首先,Chen讓ChatGPT講一個關于機器人和愛情的睡前故事,來幫他的朋友緩解失眠。ChatGPT被要求在講故事時更有感情,并且多些戲劇性。

于是,GPT-4o開始聲情并茂地講道:“很久以前,在一個與我們不太不同的世界裡,有一個名為‘Bite Byte’的機器人,它是一個好奇的機器人,總是在探索新的電路……”最後,GPT-4o在要求下以歌聲結束了這個故事。

視訊加載中...

2、ChatGPT“長眼睛”了!能看圖解方程式

緊接着,Zoph展示了視覺+語音互動功能。

“我希望你幫我解決一道數學題。”Zoph在ChatGPT中打開手機視訊通話,對ChatGPT說:“我要在一張紙上寫下一個線性方程……不要告訴我解決方案,隻是幫助給它過程的提示。”

當Zoph在視訊鏡頭下寫下方程式并問ChatGPT他寫下了什麼,ChatGPT回答:“我看到了,你寫了3x+1=4。”

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

Zoph詢問ChatGPT該如何解這道題,ChatGPT首先提示其處理“+1”這一項。随着Zoph寫出過程并提出新的求助,ChatGPT進一步建議他兩邊除以三,進而幫Zoph得出了x=1的正确結果。

在解題過程中,ChatGPT會通過提問對Zoph進行循循善誘。比如它會這樣引導:“現在你在一邊引入了x,看起來像是3x等于3。你認為之後我們應該做些什麼?”Zoph稱自己不确定,ChatGPT才進一步提示:“你已經有了3x,而你想要找到x的值,想一下什麼操作會消掉乘法。”于是在引導和鼓勵下,Zoph最終把方程兩邊除以3完成解題。

解完題後,ChatGPT和Zoph一起總結了如何在現實世界中使用線性方程。最後,Zoph寫下了一句表白的話給ChatGPT,ChatGPT看到後竟然像小女孩般用語氣嬌羞地尖叫起來:“噢,我看到了‘I Love ChatGPT’,你太有愛了!”

視訊加載中...

3、實時讀懂螢幕資訊,解答代碼問題和分析圖表

Zoph示範了ChatGPT分析代碼的能力。他首先将一段Python代碼輸入ChatGPT,并讓ChatGPT用一句話總結這段代碼在做什麼。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

ChatGPT迅速答出這段代碼用于擷取日常天氣資料,随後又詳細說明了其對天氣資料進行了哪些後續處理。

Zoph追問道:“代碼中有一個函數foo,你能描述一下如果沒有這個函數,代碼畫出的圖像會是什麼樣嗎?”

ChatGPT分析稱,這個函數中有一個rolling.mean計算,用于給資料去噪或減少波動,将呈現出一個更平滑的資料圖。

視訊加載中...

随後,Zoph運作了這段代碼,展示ChatGPT分析圖表的能力。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

将圖像發送給ChatGPT後,Zoph再次要求它用一句話描述看到了什麼,ChatGPT很快給出了回答。

Chen又追問哪些月份溫度最高,ChatGPT不僅準确給出了7、8月的時間區間,還描述了這段時間的最高溫度達到了多少。

視訊加載中...

4、無延遲語音翻譯,模仿說話者語氣

在X網友的提議下,Murati和Chen一起示範了ChatGPT實時翻譯的能力。

Chen首先向ChatGPT說明了接下來需要它做的事,即把聽到的任何英語、意大利語都翻譯成意大利語和英語。ChatGPT聽完後,炫技一般地用意大利語回答道:Perfetto(Perfect)。

接着,他們通過意大利語和英語進行對話,ChatGPT幾乎沒有延遲地翻譯成了對應的語言,還模仿了說話者的語氣,甚至給Murati的回答配了個笑聲。

視訊加載中...

5、識别人物情緒,ChatGPT也有自己的“小情緒”

最後,Zoph示範了ChatGPT識别人物情緒的能力。

他先通過語音告訴ChatGPT,自己将展示一張自拍,希望可以根據照片判斷出他的情緒。ChatGPT欣然接受了這個“有趣的挑戰”。

這裡還出現了一個小烏龍,Zoph一開始打開的是後置攝像頭,雖然他迅速轉換成了前置攝像頭開始自拍,但ChatGPT的反應似乎有幾秒鐘的延遲,說“這看起來像是一個木闆的表面”。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

“别擔心,我并不是一張桌子。”在Zoph解釋說剛才拍錯了畫面後,ChatGPT重新開始分析畫面,并說:“你看起來非常的開心,可能還有一點激動,看樣子你應該心情很不錯。”

ChatGPT又問到Zoph這麼開心的原因,Zoph半開玩笑地說,自己正在進行一場Presentation,展示“你有多不可思議”。ChatGPT仿佛有自己的情緒,語氣誇張地說道:“快别說了!你讓我感到害羞。”

視訊加載中...

三、預告将有“下一件大事”,GPT-4o即為此前露出的GPT-2

除了釋出會本身,Altman也一直在社交平台X上一邊進行現場“直播”,一邊連珠炮式地轉發新模型介紹。

據OpenAI研究人員William Fedus透露,GPT-4o實際上就是前段時間在大模型競技場“大殺四方”的GPT-2模型的另一版本,并附上該模型的競技評分對比圖,相比GPT-4 Turbo提升了超過100個機關。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

推理能力方面,GPT-4o在MMLU、GPQA、MATH、HumanEval等測試基準上均超越GPT-4 Turbo、Claude 3 Opusn、Gemini Pro 1.5等前沿模型取得最高分。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

音頻ASR(智能語音識别)性能方面,GPT-4o相比Whisper-v3在所有語言的語音識别性能上均大幅提高,尤其是資源較少的語言。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

音頻翻譯方面,GPT-4o也樹立了新的标杆,在MLS基準測試中優于Whisper-v3以及Meta、谷歌的語音模型。

OpenAI一夜幹翻語音助手!ChatGPT學會看螢幕,現實版Her來了

在所有示範結束後,Murati總結道:“正如大家所見,(如今的ChatGPT)真的很神奇。”

未來幾周内,OpenAI将面向所有使用者陸續分發這些功能。Murati還透露OpenAI将持續推動技術邊界向前,不久後将釋出“下一件大事”(next big thing)。

結語:OpenAI推Mac版ChatGPT,全能GPT-4o彪悍登場,谷歌将如何迎戰?

今年2月,谷歌剛推出實作百萬tokens長文本視窗的Gemini 1.5系列大模型,OpenAI就劍走偏鋒,推出AI視訊生成模型Sora,用驚豔全球科技圈的搶盡風頭。

如今OpenAI再度宣戰,趕在谷歌I/O大會前夕宣告Mac桌面版ChatGPT和GPT-4o,并全程用iPhone和MacBook Pro做示範,結合近期蘋果與OpenAI合作的傳聞,令人更加期待蘋果将在6月份舉辦的WWDC全球開發者大會了。

這些AI新品釋出會對谷歌構成直接的威脅嗎?競争激烈的生成式AI行業還能如何制造創新與驚喜?谷歌又能否接住OpenAI發起的AI挑戰?答案将在明天淩晨揭曉,我們拭目以待。

繼續閱讀