天天看點

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

作者:cnBeta

OpenAI 釋出了一個名為 GPT-4o 的新旗艦生成式人工智能模型,并将在未來幾周内"疊代式"地在公司産品中推出。OpenAI 首席技術官穆裡-穆拉提(Muri Murati)說,GPT-4o 提供了"GPT-4 級"智能,但在 GPT-4 的基礎上改進了文本、視覺和音頻功能,所有使用者都可以免費使用,付費使用者将繼續 "擁有五倍于免費使用者的容量限制"。

穆拉提在 OpenAI 辦公室舉行的主題演講上說:GPT-4o 的理由橫跨語音、文本和視覺。OpenAI 将釋出桌面版 ChatGPT 和全新的使用者界面。

穆拉提說:"我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用關注使用者界面,而隻關注與GPT的協作。這一點非常重要,因為我們正在展望人類與機器之間互動的未來。"

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

GPT-4是OpenAI之前的領先模型,它是圖像和文本的結合體,可以分析圖像和文本,完成從圖像中提取文本甚至描述圖像内容等任務。但 GPT-4o 增加了語音功能。

這具體能帶來什麼?很多方面。

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

GPT-4o 極大地改善了 ChatGPT 的體驗--ChatGPT 是 OpenAI 的病毒式人工智能聊天機器人。ChatGPT 長期以來一直提供語音模式,使用文本到語音模式轉錄 ChatGPT 中的文本。但 GPT-4o 對此進行了改進,讓使用者可以更像使用助手一樣與 ChatGPT 互動。

例如,使用者可以向由 GPT-4o 支援的 ChatGPT 提問,并在 ChatGPT 回答時打斷它。OpenAI 表示,該模型能提供 "實時"響應,甚至能捕捉使用者聲音中的情感,并生成 "一系列不同情感風格 "的語音。

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

GPT-4o 還改進了 ChatGPT 的視覺功能。有了照片或桌面螢幕,ChatGPT 現在可以快速回答相關問題,從 "這個軟體代碼是怎麼回事 "到 "這個人穿的是什麼牌子的襯衫?

GPT-4o 從即日起在 ChatGPT 的免費級别中推出,OpenAI 的進階 ChatGPT Plus 和 Team 使用者可使用 "高出 5 倍 "的消息限制,企業選項 "即将推出"。(OpenAI指出,當使用者達到使用門檻值時,ChatGPT将自動切換到GPT-3.5)。OpenAI 表示,它将在下個月左右向 Plus 使用者推出由 GPT-4o 改良的語音體驗。

穆拉提說:"我們知道這些模型越來越複雜,但我們希望互動體驗變得更自然、更簡單,讓你完全不用關注使用者界面,而隻關注與 [GPT] 的協作。"

OpenAI 聲稱,GPT-4o 的多語言能力也會更強,在 50 種不同語言中的性能都有所提高。在 OpenAI 的 API 中,GPT-4o 的速度是 GPT-4(特别是 GPT-4 Turbo)的兩倍,價格為 GPT-4 Turbo 的一半,而且速率限制更高。

使用者隻需發出簡單的"嘿,ChatGPT"語音提示,就會收到來自代理的熱情洋溢的口語回應。然後,使用者使用簡單的口語送出查詢,并在必要時附上文字、音頻和/或視覺效果--後者可以包括照片、手機攝像頭的實時畫面或代理能"看到"的任何其他内容。

在音頻輸入方面,人工智能的平均響應時間為 320 毫秒,該公司稱這與人與人對話中的人類響應時間相似。在今天的示範中,代理的回答沒有出現令人尴尬的滞後現象,這無疑包含了許多類似人類的情感。此外,使用者還可以打斷代理的回答,而不會影響前後的資訊流。

在示範中,GPT-4o 還充當了兩個人之間意大利語和英語對話的口譯員;幫助一個人解決手寫的代數方程;分析程式設計代碼的某些部分;甚至還為一個機器人的睡前故事配上了廣告詞。

目前,GPT-4o 應用程式接口中還沒有為所有客戶提供語音功能。OpenAI 以濫用風險為由表示,計劃在未來幾周内首先向 "一小部分可信賴的合作夥伴 "推出對 GPT-4o 新音頻功能的支援。

OpenAI釋出最新旗艦生成式AI模型GPT-4o 改進文本、視覺和音頻功能

其他方面,OpenAI 将在網絡上釋出煥然一新的 ChatGPT UI,新的主螢幕和消息布局 "更具對話性",同時還将釋出桌面版的 ChatGPT for Mac,使用者可以通過鍵盤快捷鍵向 ChatGPT 提問,也可以通過打字或說話截圖并進行讨論。(從今天開始,Plus 使用者将首先獲得通路權限,Windows 版本的應用程式将于今年晚些時候推出)。此外,ChatGPT 的免費使用者現在還可以通路 GPT Store(OpenAI 基于其人工智能模型建構的第三方聊天機器人庫)。

GPT-4o 的文本和圖像功能現已開始向付費 ChatGPT Plus 和 Team 使用者推出,企業使用者也即将推出。免費使用者也将開始使用,但有費率限制。

語音版 GPT-4o 将 "在未來幾周内 "開始提供。

開發人員将能夠使用 GPT-4o 的文本和視覺模式,并在未來幾周内向 "一小部分值得信賴的合作夥伴 "提供音頻和視訊功能。

繼續閱讀