編輯 | GenAICon 2024

2024中國生成式AI大會于4月18-19日在北京舉行，在大會首日的主會場大模型專場上，前Meta首席工程負責人胡魯輝老師以《從多模态大模型到了解實體世界》為題發表演講。

胡魯輝談道，聚焦多模态大模型的後GPT-4時代呈現出4大趨勢，一是語言大模型到多模态大模型，二是資料內建到向量資料庫，三是Agent智能體到大模型作業系統，四是模型微調到Plugin（插件）平台。

他認為大模型是通向AGI靠譜的方法。在大模型的落地應用中，企業和研究機構需要面對多方面的挑戰。首先是資料的标準化問題，不同來源和格式的資料需要被轉化成一種統一的格式，以便于模型的訓練和應用。

此外，模型的分散性和應用場景的複雜性也大大增加了開發的難度。例如，在不同的實體環境下，模型需要調整其參數以适應特定的硬體和軟體條件。同時，算力成本和訓練時間的長短也是制約大模型廣泛應用的重要因素。

胡魯輝預測下一個AI 2.0爆發點及落地大方向将是AI for Robotics。這一領域的發展需要模型不僅了解程式設計或語言處理，更要深入到實體世界的具體應用中去。這涉及對實體環境的了解和設計，需要大模型能夠整合各種感覺資料，進行快速的決策和學習，以應對不斷變化的外部條件。這一過程中，模型的訓練和應用将更加依賴于高效的算力和先進的硬體支援。

以下為胡魯輝的演講實錄：

今天我要分享的是《從多模态大模型到了解實體世界》。大模型的快速發展加上不斷的技術演變，變化很大，我希望将自己的一些實戰經曆分享給大家。

今天主要分享4個方面。首先從大模型的原理出發，講一下GPT-4之後矽谷及全球有哪些重大變化；其次結合大模型和多模态的特征，分享Transformer以及我在Meta的相關工作經曆；今天的重點是為什麼要去了解實體世界，僅僅依靠語言大模型并不能走向通用人工智能，了解實體世界才有可能走向它；最後，結合多模态大模型和了解實體世界探讨如何接近AGI。

一、大模型開啟AI 2.0時代，Meta是開源上司者

每個技術的快速發展離不開背後大量的科研創新工作，這是人工智能複興的原因，因為其在快速發展和疊代。人工智能的重要性和意義十分突出，可以說，這次人工智能是第四次計算時代或第四次工業革命。第三次計算時代是移動網際網路時代，我們正處于這個時代，根據每次的發展，第四次的規模比第三次要大，且從經濟效益上來講，對人類社會的影響力更大。

人工智能在曆史上有兩個拐點，AlphaGo和ChatGPT。雖然每一個拐點隻代表一個産品或者技術，但其對人類的影響不僅是技術本身，如AlphaGo，不可能所有公司都做下棋産品或平台。對社會來說，第一次是利用拐點背後的技術（如CV或别的技術）開始AI 1.0時代。這一次則是基于大模型泛化湧現的能力開始AI 2.0時代。

ChatGPT釋出了一年多，性能表現的排名仍比較領先。并且現在大模型訓練的費用或成本越來越高，之前GPT-4訓練的時候需要6000萬美元左右，GPT-5可能更貴。

目前OpenAI是閉源大模型的上司者，Meta是開源的上司者。OpenAI在閉源大模型中的上司地位是公認的，Meta的開源大模型Llama和視覺SAM比較領先。其中Llama幫助了很多語言模型開發公司的團隊，讓他們擁有了很好的基礎。

現在模型中，有三個閉源和三個開源比較領先。或許大家疑惑Meta的Llama怎麼不見了，Meta在做另外一件更有意義的事情，就是了解實體世界，他們叫世界模型。最近Llama還沒有疊代，大家可以拭目以待，這個排名還是會變化的，Llama為很多大語言模型奠定了基礎，幫助很多企業飛速發展。

二、Meta有三大SOTA視覺大模型，多模态、視覺與語言走向融合

Meta的視覺大模型還有很多貢獻。Transformer最初應用于語言模型，逐漸衍生到視覺，其中比較火的一個就是ViT，視覺Transformer。

Meta通過ViT或Transformer不斷疊代，有三個影響比較大的視覺Transformer：一是DeTr，Detection Transformer，它有端到端的Object Detection；二是DINO，通過Transformer開啟了視覺領域的自監督，無論是大語言模型還是其他大模型，都不能依賴打标簽，需要它能夠自主學習監督；三是SAM，更多是零樣本，是泛化的能力。

在視覺領域，除了Sora，SAM影響力較大。怎麼訓練SAM，需要多少資源，或者訓練過程中需要注意哪些事情？我去年寫了一篇文章Fine-tune SAM，詳細講了怎麼利用SAM做微調，如何控制資源，或者利用資源更有效地做微調。

幾年前，一提到人工智能，就會想到視覺、語言兩個支派，CNN、RNN基本上井水不犯河水。做NLP的一波人和做CV的那波人有各自的學術派，方法不一樣，會議也不太一樣。這次深度學習，語言模型從LSTM到Word2Vec，到最近的GPT還有BERT。視覺模型最早從分類到檢測，再到分割，接着從語義分割到執行個體分割。

這裡有許多地方特别相近，所謂的語言大模型無非是更深層次的一個相關性和邏輯推理。視覺也是一樣，邏輯上二者是融合的，技術上是Transformer。語言層面GPT-4、 Llama比較經典；視覺中Sora和SAM都是比較經典的例子，它後面的Backbone都是基于Transformer。

無論從邏輯上講語義相關性，還是技術上Transformer Backbone，都在逐漸融合。

這是一個好消息。對研發工作者而言，以前井水不犯河水的NLP和CV終于有一天融合了。它在發生一個質的變化。

目前AI的核心技術，也是個比較靠譜的AGI方法，能從一個技術、一個方向擴充到下一階段。但Meta首席AI科學家楊立昆反而不這麼認為，JEPA從最初的Image JEPA到Video JEPA有自己的理論。但不管怎麼樣，從工程上或者應用上，它的效果确實突出。

打造大模型的核心關鍵能力是什麼?一般人會說是三個核心，資料、算力、算法。而我根據一些工作經驗還歸納出來另外兩點。

一個是模型架構，現在的大模型和以前的深度學習算法不同的地方，就是模型架構的重要性。通過Backbone或模型架構的重塑做遷移學習或微調，不是僅僅把領域資料或者領域知識輸入進去，而是通過改變模型架構産生一個新的模型，達到自己想要的領域模型。

還有一個是智能工程。Llama是開源的，OpenAI搞出來GPT-3.5，也就是ChatGPT，改變世界的奇點就發生了。有GPT-3，有資料、算力，但能不能制造出GPT-3.5？不同的公司不一樣，根本原因就是智能工程不同。

這五個裡面哪個最核心、最關鍵？很多人可能會說是算力，很貴，買不到H100、A100，但是無論是谷歌還是微軟，都不會缺乏算力，他們目前卻沒有世界最領先的GPT-4這樣的模型。

國内很喜歡說資料，沒有資料的确很難搞出好的模型，但是很多大廠也不會缺資料。算法基本上是開源的，像Transformer或者一些比較新的算法也是開源的，它也不是最關鍵因素。而模型架構，也可以通過一些微調、不同的嘗試探索出來。

是以結合國外的模型和國内的現狀，最核心打造大模型的能力應該是智能工程。

這也就是說OpenAI的一些人出來創業搞Claude，剛才大家看到排名中第二領先的就是Claude，就是OpenAI中的人出來創業做的事情。說明人才是最值錢的。

三、預測“後GPT-4”四大發展趨勢，了解實體世界有七大特征

現在GPT-4是多模态大模型，在矽谷及全球人工智能發展到底有哪些趨勢？我認為有四個方面，這張圖是根據我的預測讓GPT-4生成的圖例展示。

第一，從語言大模型到多模态大模型。

第二，邁向向量資料庫。目前的大語言模型或多模态大模型不論多大，都有一定的局限性，導緻向量資料庫火起來了。大家可以把一部分或大部分的資料放在向量資料庫裡，把相關的資料放在大模型中。

第三，從自動Agent到将大模型作為作業系統。Agent比較火，但是它的背後依然是語言大模型或多模态大模型。Agent相當于軟體自動實作。後續多模态大模型作為作業系統可能是比較核心的。

第四，開源模型從微調到引入插件平台。ChatGPT相當于一個平台，不僅可以微調，而且可以通過插件作為一個平台，是以插件可能是未來的一個方向。

為什麼模型能夠這麼快發展，為什麼我們能夠支撐Scaling Law？很大原因是計算能力的發展。CPU時代有摩爾定律，GPU時代同樣發展速度更快。去年英偉達釋出能夠支撐1億FLOPS的算力，今年他們釋出了新的DGX GB200，去年是GH200，現在是GB200，小了一點，更快一點，但還是一個量級的。好幾個DGX串起來是很大的規模，近十年之前IBM計算機也是相當大的，而現在手機就能支撐以前的算力，GPU其實也一樣。

有這個大模型或算力後，應用在發生什麼變化？可以看到，AI 2.0比較以前的傳統軟體或網際網路，使用者和場景可能都一樣。但是以前是使用者從App到服務軟體再到CPU，現在是使用者從多模态到基礎模型，然後到GPU，中間可以依賴資料庫或者訓練資料，傳統的用資料庫，現在用向量資料庫。

接下來關于了解實體世界，AI賦能了智能手機、智能車、智能家居等等，圍繞的計算核心是智能雲。現在或未來中心會是AI factory（人工智能工廠），它的輸入是Token，文字、視覺或視訊，它的輸出就是AI。過去應用有手機、有車，将來就是各種機器人。未來汽車某種意義上也是一種機器人。從架構來看，AI for Robotics是一個未來方向，未來即将爆發的方向，從雲計算、AI工程、基礎模型，生成式AI再到上面的AI for Robotics。

了解實體世界也比較有挑戰性，現在的語言模型隻能局限于訓練的範圍中，對外界的了解還是有相當的局限性。

了解實體世界到底有哪些特征，怎麼能夠從現有的多模态大模型轉向了解實體世界，有了了解實體世界以後再向AGI接近？我認為有七個方面，最外面的紫色是比較優秀的人，因為人的水準都不一樣，作為比較優秀的人能夠了解實體世界的水準。

但GPT-4或最新的GPT-4 Turbo是什麼樣？是裡面的圈。現在GPT-4 Turbo和人還是有很大的距離，隻有從每個次元提升發展，才能真正了解實體世界，更加接近地通用人工智能。

了解實體世界不僅僅是對空間的了解或者空間智能，因為從概念上 “空間”相當于3D，不包括語言等核心AI。

說到這裡，大家可能覺得比較抽象，這也是Meta最近在做的一些事情。Meta在開源大模型或者開源多模态大模型方面目前顯得“落後”了，但Llama 3馬上來了，是因為它把很多精力花在了世界模型中，同時在治理的7個方面提高模型的能力。

我最近成立一家公司叫智澄AI，緻力于通用人工智能。“澄”的意思是逐漸走向真正的智能。

以上是胡魯輝老師演講内容的完整整理。

胡魯輝：“後GPT-4”有4大發展趨勢，了解實體世界才能接近AGI

一、大模型開啟AI 2.0時代，Meta是開源上司者

二、Meta有三大SOTA視覺大模型，多模态、視覺與語言走向融合

三、預測“後GPT-4”四大發展趨勢，了解實體世界有七大特征

繼續閱讀

澳門站結束，女排世界最新排名，中國女排排名更新。

隊史最大錯誤！克羅斯要千萬歐年薪，拜仁隻給600萬稱其非世界級

奶油色調的家居裝修，不僅柔和了空間的整體氛圍，還給人一種溫馨而舒适的感覺，仿佛置身于夢幻般的童話世界。#襄陽裝修公司##

使用博冠馬卡150+BAC290mc天文相機拍攝#探索宇宙#探索世界

歲月靜好是片刻，一地雞毛是日常，即使世界偶爾薄涼，内心也要繁華似錦，望遠處是風景，近處才是人生#分享你随手拍的風景##圖

想告訴全世界的女生，晚餐這麼吃巨掉稱，再也不用挨餓入睡了！

兩幅世界名畫：安帥再現墨鏡雪茄經典！4巨頭女神像前舉杯 5人29冠

女排世界排名:中國女排0-3意大利，被扣大分，送日本成亞洲第一！

張志磊 5 回合 KO 維爾德，中國力量震撼世界拳壇

嚴懲不貸！國乒世界第3狂摔球拍敗人品，曾因不雅動作遭禁賽半年

最近看到一段話，很有感觸，“人在憤怒的時候，智商為零，人在沒有給他人信任的時候，說什麼都沒有用了”。是啊！在這個混沌的世

AMD殺瘋了！新一代最強AI晶片MI350系列登場，性能提高3500%｜矽基世界

歐洲看病最便宜的國家希臘，1歐元看所有病，全世界人都想去！

日媒贊孫穎莎：世界第1高牆，日本球迷：該把乒乓球逐出奧運會

如果俄烏沖突演變為第三次世界大戰，拜登和美國脫得了幹系

#花的世界很美#花卉綠植