近日，人工智能領域的領軍企業OpenAI釋出了全新的AI模型GPT-4o，這一重大突破被譽為“一夜改變人機互動曆史”。GPT-4o不僅支援語音聊天，還能進行實時視訊互動，其絲滑程度堪比真人互動。這一技術的問世，無疑将為人工智能領域帶來新的發展機遇。

OpenAI的野心

OpenAI的旗艦産品ChatGPT雖然能了解自然語言并回答使用者的問題，但由于其“預訓練”的原理，無法即時搜尋内容。此外，大語言模型的生成機制也使得ChatGPT無法完全規避“一本正經地胡說八道”的現象。是以，人們想要了解最新的實時内容，仍然需要求助于搜尋引擎。

傳統搜尋引擎基于關鍵詞比對，即根據使用者輸入的關鍵詞識别檢索範圍，并比對可能符合使用者意圖的海量資訊。然而，傳統搜尋的痛點在于不同來源的海量資訊帶來的大量備援和資訊不一緻，這也導緻搜出來的資訊一大堆，但找不到有用的東西。

OpenAI顯然希望成為人類和資料的重要連接配接點，僅靠ChatGPT（哪怕是再聰明的GPT）也隻能滿足一部分需求，推出搜尋引擎勢在必行。目前，業内最為關注的是OpenAI的搜尋引擎将會是一個什麼樣的形态，以及它是否真能撼動Google一家獨大固化已久的搜尋市場生态。

在OpenAI之前，美國已經有一款生成式搜尋引擎Perplexity。成立于2022年的Perplexity是一家位于美國矽谷的創業公司，該公司專注于利用人工智能技術開發生成式搜尋引擎，為搜尋查詢提供直接答案，而不是提供網站連結清單。PerplexityAI會在提供的答案中整合視訊、圖像等，有時還會直接提供連結資源。Perplexity受到包括英偉達CEO黃仁勳等人的喜歡，成立一年半MAU達到1000萬。

那麼，OpenAI的搜尋引擎會與PerplexityAI類似，還是會帶來更多驚喜？我們還需要等待OpenAI的最終揭曉。

GPT-4o不僅是完全免費的，而且覆寫了桌面與移動App，性能大幅提升，可以綜合處理文本、圖檔和音頻，人機互動更加自然簡單。例如，可以讓GPT-4o加入網絡會議，為使用者記錄發言總結概要。

GPT-4o具體有什麼用？使用者可以讓GPT-4o處理眼前的問題，極大提升生産力，可以與AI實時語音對話，就像是與真人聊天一樣自然流暢。AI處理反應已經達到人類的速度，甚至還可以了解使用者的情緒，以相應的情感作出回應。

搶微軟的風頭

面對OpenAI的故意撞車和搶占風頭，谷歌在今天的I/O大會上又拿出了怎樣的AI産品，是否帶來了足夠的震撼與新意？

谷歌I/O開發者大會今年已經進入了第16個年頭，AI早已成為I/O大會的絕對乃至唯一的主角。谷歌CEO皮查伊更是在結束時宣布，整場釋出會一共說了121次AI，引發了全場大笑。雖然整場釋出會都沒有提及競争對手，但谷歌CEO皮查伊從主題演講一開始就開始秀谷歌的AI實力，宣布谷歌已經全面進入Gemini時代。他強調谷歌已經在AI領域投入了十多年時間，貫穿了AI的每一層：研究、産品、基礎設施。

雖然AI新貴OpenAI在産品釋出方面搶占了先發優勢，但谷歌在研究論文、使用者規模、産品數量以及算力方面都占據着壓倒性優勢，這也是OpenAI必須與微軟結盟的直接原因，因為兩家公司都不可能單獨與谷歌抗衡。

皮查伊還宣布，Gemini大模型已經覆寫了谷歌全平台的20億使用者産品，僅僅三個月時間就有100多萬使用者注冊使用。而兩個月前釋出的原生多模型Gemini 1.5 Pro已經得到超過150萬開發者的使用。

在性能方面，谷歌就是AI業界的滅霸。Gemini 1.5 Pro此前直接将Token（上下文處理）性能提升到了百萬級别，全面壓倒了受困于性能變慢的GPT-4.0 Turbo。三個月後，谷歌在今天宣布改進版的Gemini 1.5 Pro全面開放給Gemini Advanced的使用者，并且支援35種語言。

更為殘暴的是，谷歌還将Gemini 1.5 Pro的上下文視窗處理性能直接翻倍到了200萬（暫時隻面向開發者提供），在這方面OpenAI隻能望塵莫及。皮查伊宣布，這是朝着無限上下文的最終目标邁出的重要一步。

Gemini 1.5 Pro可以給使用者帶來怎樣的實際體驗？谷歌用Workspace辦公元件展示了AI給生産力帶來的巨大變化。舉例來說，如果是通過Google Meets進行遠端會議，哪怕使用者無法參會，也可以讓Gemini為自己錄音并列出會議紀要。

有了Gemini，Gmail郵箱就有了靈魂。代寫郵件已經是基本操作了。使用者可以讓Gemini幫助自己整理和總結Gmail的海量郵件，根據最近的收據和信用卡賬單郵件整理歸納出使用者的消費支出，給出一份專業又具體的财務支出清單。

給AI裝上眼睛嘴巴

周鴻祎指出，據OpenAI釋出會上簡短的技術原理介紹，差別于傳統将把語音先翻譯成文字處理後再翻譯成語音的做法，這次的技術是直接把語音進行了處理，形成了一個整合的大模型引擎，實作對語音輸入的直接了解——包括把語音中飽含的情緒、感情、語調、口音這些細節都進行了了解，同時是直接輸出語音。

“這就帶來了一個全新的體驗，就是時延大概隻有300毫秒左右，達到了人類和人類談話的響應速度，這樣不僅能聽得懂你話裡的情緒，在輸出回答的時候也可以伴随着高興、悲傷、失望、興奮或者是更複雜的感情。”周鴻祎表示。

周鴻祎還指出，除了語音處理層面帶來的驚豔之外，有一個容易被忽視的地方是，實際上GPT-4o的還可以直接打開手機攝像頭，直接通過手機攝像頭賦予它更強大的眼着的能力。這個可能還比不上Sora，但是它比GPT-4.5的版本可以輸入圖檔輸入表格的能力又提升了一步。“是以總結來講就是，GPT-4.0相當于給人工智能賦予了對知識了解的能力，相當于有了一個大腦，然後GPT-4.5相當于給了一些初級的看見的能力，而GPT-4o實際上是給它增加了真正能看懂這個世界的眼睛，和能聽明白人說話的耳朵，而且嘴巴還能夠自由自在地表達自己情緒和情感的能力。”。

在周鴻祎看來，有些人會對此次釋出OpeanAI沒有推出GPT-5.0覺得比較失望，但是通向通用人工智能不僅是要在超級的推理能力、知識能力、邏輯能力上要趕超人類，更重要的能力還包括跟人互動的能力。是以，當AI能通過無論是手機攝像頭還是無處不在的物聯網攝像頭更看明白這個世界，而且能以跟人一樣的響應速度進行互動的時候，這件事就變得非常可怕了，“也就是它就讓人工智能真正的更像人了”。

總結來說，人工智能技術的發展日新月異，每一次技術的突破都為我們帶來了新的驚喜。OpenAI釋出的全新AI模型GPT-4o以及谷歌在I/O大會上展示的Gemini 1.5 Pro都是人工智能領域的重要突破。這些技術的問世，無疑将為人工智能領域帶來新的發展機遇，也将為我們的生活帶來更多便利。然而，我們也應看到，人工智能技術的發展還面臨着許多挑戰，如如何保證人工智能的安全性、如何避免人工智能的濫用等。這些問題需要我們在發展人工智能的同時，不斷進行思考和探索。

OpenAI釋出全新AI模型GPT-4o，微軟卻稱自己才是AI“滅霸”

OpenAI的野心

搶微軟的風頭

給AI裝上眼睛嘴巴

繼續閱讀

斯坦福AI團隊抄襲國産大模型？連識别“清華簡”都抄了！清華系團隊回應

LLM 快速發展時代下圖基礎模型初探

Chaos Cosmos新增了 650 多種高品質 3D 模型和材質

看來AI是未來手機發展的趨勢無疑了，近日有爆料稱将用AI徹底改造Siri，讓其控制所有功能，該功能允許使用者通過語音控制單

斯坦福AI團隊被質疑抄襲國産大模型

蘭德：確定AI模型權重

斯坦福AI團隊承認抄襲清華模型，公開道歉并撤下争議項目

今日法律問答·著作權：斯坦福AI團隊抄襲面壁開源模型是否侵權

清華與面壁聯合開發模型被套殼，兩位斯坦福學生作者道歉删除引用

斯坦福團隊抄襲清華系大模型實錘，作者深夜道歉，中國大模型已經無法被忽視

微軟潘海峰華盛頓大學王晟團隊釋出首個全切片數字病理學模型

阿裡雲首個聯合DNA、RNA、蛋白質的生物大模型，涵蓋16.9W物種

鐘薛高再回應蕃薯刺客；理想辟謠新車充當二手車出口；斯坦福AI團隊就抄襲中國模型緻歉｜晚報

國内一開源，國外就自研[發怒]斯坦福大學團隊抄襲清華系明星創業公司開源模型“小鋼炮”MiniCPM-Llama3-V2.

OpenAI、谷歌DeepMind現任和前任員工警告人工智能風險：可能導緻人類滅絕！呼籲保護吹哨人

AI模型抄襲中國？背後有更值得關注的資訊