解讀｜GPT-4o為OpenAI開啟超級入口，對谷歌形成挑戰？

·基于ChatGPT或GPT-4o，未來人類獲得資訊的方式很可能會改變，GPT-4o或為OpenAI開啟了一個超級入口，這可能會對谷歌帶來影響。接下來，OpenAI需要判斷的是在産品上的極緻體驗是否是剛需。

“GPT-4o在超自然的互動模式上是一個巨大進步。”5月14日，螞蟻集團副總裁、NextEvo負責人徐鵬對澎湃科技表示。2024年5月14日淩晨， OpenAI向人們展示了其最新多模态大模型産品——GPT-4o，o代表omini，意為全能。

04:06

與現有模型相比，GPT-4o展現出了其在視覺和音頻了解方面的出色技能。伴随着GPT-4o的到來，外界紛紛猜測，美國科幻電影《她》所描寫的時代正一步步向我們靠近。2013年，電影《她》(《Her)》）中講述了一個男人愛上了一個語音助手的故事。

與谷歌競争原生多模态？

根據OpenAI工程師、首席技術官米拉·穆拉蒂（Mira Murati）的介紹，GPT-4o可以在音頻、視覺和文本中進行實時推理，接受文本、音頻和圖像的任何組合作為輸入，并生成文本、音頻和圖像的任何組合進行輸出。它可以最短在232毫秒内響應音頻輸入，平均為320毫秒，這與人類在對話中的響應時間相似。

獵豹移動董事長兼CEO傅盛表示，雖然GPT-4o讓人工智能從業者“比較失望”，但他也指出，“GPT-4o相當于把一系列引擎結合在一起，比如圖檔文字聲音，這樣使用者就不需要來回切換了。最重要的是這次釋出的語音助手，由于使用了端到端的大模型技術，它能夠實時感覺情感變化，在該插話的時候插話，其實這才是大模型的未來。”

徐鵬在接受澎湃科技采訪時表示，雖然OpenAI沒有推出大衆期待的GPT-5，但GPT-4o在超自然的互動模式上是一個巨大進步。和GPT-4相比，GPT-4o的最大差別在于，所有模态都內建在一個模型中，多模态整合更精細，延遲僅300毫秒左右，同時能夠感覺情緒、語氣、表情，實作更自然的互動，這需要資料組織能力、聚焦突破能力、工程優化能力，也擴大了人們對于互動的想象空間。

徐鵬表示，OpenAI的目标是将語音能力和語言了解能力深度結合，早在GPT-3時代，其推出的自動語音識别系統Whisper就是一個前期研究。“把語音、圖像、視訊、文字等各種模态的資料放在統一表征架構下，對于實作他們眼中的API（應用程式程式設計接口）是一個非常自然的方式，因為人也是多模态了解和互動的智能體。”

徐鵬認為，2023年12月，谷歌推出原生多模态Gemini模型之後，OpenAI就在為原生多模态領域的競争做準備了。所謂“原生多模态”，即從一開始就使用多種模态（例如音頻、視訊和圖像）訓練模型，而不是“拼湊多模态”模型。

GPT-5可能還要難産一段時間？

“把圖像、文字、語音、視訊編碼編到一個模型裡，在模型裡它們有統一的表征，這些資料一起送給模型訓練，模型就會學到各個模态，隻要它們的資訊是相關的，内部的表征實際上是非常接近的，這樣在生成時也會比較靈活。”徐鵬表示，内部表征已經融合，是以GPT-4o可以最快的速度輸出生成的語音，實作低延時的絲滑互動。“OpenAI的工程能力确實令人贊歎，模态這麼多，輸入token數非常多，還能夠以兩三百毫秒的延遲輸出，這在工程上是難得的進展。”

對于此次GPT-4o模型，目前，OpenAI高管并未透露訓練GPT-4o模型時使用了什麼樣的資料，也未透露OpenAI能否利用較少的算力訓練該模型。科技投資人、華創資本創始合夥人熊偉銘告訴澎湃科技，盡管OpenAI在此次釋出會上并未透露太多關于GPT-4o模型訓練的技術細節，但可以猜測出，這類端到端的大模型技術的實作，背後依賴了強大的算力支援。“肯定是大力出奇迹，這一點美國的算力市場确實成熟很多，資本市場也支援大規模的算力投入。”熊偉銘說。

傅盛認為，如果不計成本地疊加參數，提高所謂的大模型能力，這條路肯定會遇到困難。他預計，GPT-5可能還要難産一段時間。

超級入口已經開啟？

OpenAI官網顯示，目前，GPT-4o的文本和圖像功能開始在ChatGPT中免費推出，Plus使用者可以享受到5倍的調用額度。新版語音模式将在未來幾周向Plus使用者推出，同時也将會在API（應用接口）中向小範圍推出對GPT-4o的新音頻和視訊功能的支援。

熊偉銘認為，OpenAI的産品政策一方面能夠吸引免費的使用者使用，可以收集使用者大量的資料投喂給模型訓練，有助于進一步改進産品，“這樣互動的大模型使用者資料将會非常豐富。”另一方面，能夠培養使用者的付費意願，也是商業化的一種嘗試。

“我覺得OpenAI的這種嘗試，可能會改變國内一些使用者使用軟體的習慣。大家可能會願意付費在AI平台的使用上。”熊偉銘說。

徐鵬認為，OpenAI免費為使用者開放服務看中的是基于GPT-4o原生多模态的能力，未來更多企業可以在GPT-4o的基礎上開發出更自然的垂類互動産品。

過去一周，外媒不斷有消息傳出OpenAI将推出AI搜尋産品，雖然OpenAI沒有推出搜尋引擎，但是徐鵬認為基于ChatGPT或GPT-4o，未來人類獲得資訊的方式很可能會改變，GPT-4o或為OpenAI開啟了一個超級入口，這可能會對谷歌帶來影響。接下來，OpenAI需要判斷的是在産品上的極緻體驗是否是剛需。

信也科技副總裁、大資料及AI負責人陳磊告訴澎湃科技，從技術上看，GPT-4o的釋出具有跨時代意義，真正實作了多模态互動，更需要關注的是後續商業化中究竟如何持續落地。“語音識别、語音生成不是最難的，最難的是推理歸納。GPT-4o做題比以前做題難度更高了。把算法調到一定程度是能實作互動流暢性的，但像人一樣思考、推理、歸納、總結，這是更高智能的展現。”

陳磊同時表示，國内還在對标GPT-4時，OpenAI推出了GPT-4o。行業需要思考的是在持續追趕中如何差異化競争。“我們始終在追，追到一定程度發現推出了新一代産品，我們始終感覺在落後，是以要調整心态，尋找另外一條路。”陳磊說。

傅盛認為，OpenAI釋出GPT-4o模型應用，正說明了大模型在應用層面大有可為，大模型的能力會不斷疊代，但最終能把大模型用好的，還是應用。

解讀｜GPT-4o為OpenAI開啟超級入口，對谷歌形成挑戰？

繼續閱讀

釋出會對比慘烈，奧特曼發文暗諷谷歌！谷歌瘋狂重組迎擊OpenAI

曝OpenAI超級對齊團隊解散！

70B模型秒出1000token，代碼重寫超越GPT4o，來自OpenAI參投團隊

OpenAI超級對齊團隊解散知情人士揭秘：對奧特曼信任崩潰

谷歌釋出全新更新大模型，對決OpenAI；星紀魅族釋出全新Flyme AIOS系統|科技一周

藥企諾華、GSK中國區高層變動；OpenAI首席科學家離職 | 高管動态2024年5月5日-17日

保守派大潰敗？ OpenAI内鬥幕後推手離職阿爾特曼：這讓我很難過

OpenAI驚天内幕曝光！高管怒斥遭打壓，7100億AI巨頭内外交困｜钛媒體AGI

GPT-4o引發OpenAI組織創新熱議！重任應屆生大學生，職級都是浮雲

Ilya離開OpenAI内幕曝光：奧特曼砍他團隊算力，優先搞産品賺錢

OpenAI宮鬥大戲第二幕核心安全團隊解散負責人自爆離職内幕

OpenAI逼迫離職員工簽署閉嘴協定：GPT可以說話，但前員工不能

OpenAI回應“封嘴”離職條款；滴滴程維：柳青升任永久合夥人，公司不再設總裁崗位；NetBSD禁止AI生成代碼 | 極客頭條

OpenAI員工離職遭“封口”、核心安全團隊解散，Altman下場緊急回應：确有協定，但從未實行過！

聊聊OpenAI最新釋出的GPT 4o

OpenAI驚變！首席科學家突然離職！王煜全獨家分析！