AI布局最超前的，竟然是Meta

作者：盧愛芳科技資本論

整個上半年，美股科技公司因生成式AI的爆發走出了瘋狂的行情。

我盤點了一下，從去年12月30日到今年6月29日，OpenAI的盟友微軟股價上漲了41%，市值達到2.5萬億美元，僅次于蘋果；

其競争對手谷歌因Bard示範翻車股價一度暴跌，但畢竟是AI領域資曆最深的頭号玩家，最終漲幅也達到了36%；

特斯拉因占據了具身AI領域的領先地位，股價漲幅達到108%；

算力供應商英偉達上漲了180%，市值破萬億美元。

有點意外的是，Meta同期漲幅竟然達到137%，僅次于英偉達。目前Meta市值7318億美元，接近特斯拉的8121億美元。

自更名元宇宙後，Meta的股價伴随着美聯儲的不斷加息節節敗退，最低市值跌到2000多億美元，已然跌出科技巨頭第一陣營FANG。那麼在這輪由AI帶動的上漲行情中，Meta在AI上究竟做了什麼？

首先要強調，Facebook也是最早投入AI研發的巨頭之一，2014年還參與過Deepmind的競拍，最後敗給了谷歌。紮克伯格不甘居下風，他不惜一切代價将與傑弗裡.辛頓齊名、後來一起獲得圖靈獎的楊立昆收入麾下,主導Facebook在AI上的研究。

Facebook本與谷歌并駕齊驅。2016年，Facebook推出了開源的機器學習架構PyTorch，成為後來業界訓練AI的重要工具。

但OpenAI的誕生改寫了局面。當傑弗裡.辛頓的得意門生伊利亞離開谷歌，楊立昆的得意門生紮倫巴也從Facebook辭職，二人雙雙奔赴OpenAI，從此這家創業公司開始和谷歌角逐AI的上司權，而Facebook似乎淪為跟随者。

2017年，谷歌發明Transformer，2018年6月OpenAI推出GPT-1，10月谷歌推出BERT。在BERT開源後，Facebook才在BERT之上推出了XLM、 RoBERTa模型。

2021 年 1 月，OpenAI 推出由文本生成圖像的模型DALL-E，當時生成能力還很弱。2022年2月，谷歌釋出AI繪畫工具Disco Diffusion，比DALL-E的生成效果好，但速度很慢。2022年4月，OpenAI 推出DALL-E2，其能力已經非常成熟。到2022年7月，Meta才釋出了文生圖模型“Make-A-Scene”。

2022年11月30日，OpenAI 推出GPT-3.5的聊天機器人chatGPT，在全球掀起AI風暴。2023年2月24日，Meta才釋出其大語言模型的第一個版本LLaMA。

Meta處處慢人一步，但它采取了跟競争對手不同的政策——開源，這讓它赢得了開發者們的好評和支援。

OpenAI大張旗鼓地商業化，它推出了MAAS模式，向開發者按token收取大模型的使用費。微軟将 openAI整合到其雲服務Azure中，谷歌也将PaLM 2大模型整合進谷歌雲，向企業使用者收費。

而Meta釋出的LLaMA供研究人員免費使用。LLaMA上線後，研究人員們很快開發出很多chatGPT的免費替代品。著名的方舟基金“木頭姐”對LLaMA評價是，用更低的算力、更少的資料做出更好的模型。甚至谷歌内部都有工程師提出質疑，“如果有免費、高品質的替代品，誰還會為有使用限制的谷歌産品付費？”

除了LLaMA，Meta今年上半年還連續釋出了一系列開源的AI模型，隻因OpenAI和微軟風頭太勁，并未引起太多關注。

4月6日，Meta釋出了SAM（Segment Anything Model），該模型可以分割圖像中的一切對象。比如在AR/VR領域，SAM可以根據使用者的目光選擇對象，然後将其“提升”到3D中；對于内容創作者，SAM可以提取圖像進行拼貼或視訊編輯。

SAM是通用的分割方法，已經學會了物體是什麼的一般概念，可以對不熟悉的物體和圖像進行零樣本泛化，而無需額外的訓練。Meta開源了SAM的模型和包含1100萬張圖像和11億個掩碼的訓練資料集。英偉達人工智能科學家JimFan稱，SAM是計算機視覺領域的“GPT-3時刻”之一。

接着，紮克伯格親自官宣推出視覺大模型DINOv2。這是一款用于計算機視覺（CV）任務的基礎模型，DINOv2 在一個由 1.42 億張圖像構成的篩選資料集上進行了預訓練，用以圖像分類、語義分割和深度估計等多個任務。比如輸入一張圖檔，模型就能找出跟它内容相關的圖檔。針對某個物體，模型能準确地識别出它在空間中的位置。紮克伯格認為，它能加快元宇宙的建設。

SAM+ DINOv2是計算機視覺技術的一大突破，開發者們用于探索各領域的應用，有人表示在農業領域太好用了，有人甚至稱贊Meta 才是真正的“Open”AI 公司。

這隻是冰山一角，5月9日Meta釋出的ImageBind才是Meta的大招。ImageBind是一個跨六種模态的整體化人工智能模型，包括圖像、文本、深度、熱度圖、音頻和IMU（運動資料）。它還融合了Make-A-Scene、Make-A-Vido、SAM 和 DINOv2等功能，有超強的跨模态生成能力。

比如，給 AI 聽一段火車的聲音，它便能直接生成火車的圖像。當你錄了一段海邊日落的視訊，AI 便能自動根據視訊内容來生成文案和字幕，并比對上合适的背景音樂。

ImageBind 還内置了 3D 感覺和 IMU（運動資料）傳感器，可用于測量加速度與旋轉運動，讓 AI 能夠身臨其境感受我們在實體世界的變化。未來ImageBind還可以內建更多的感官功能，比如嗅覺、觸覺。

Meta的AI路線已經很清晰，就是為了建設元宇宙。Meta自2021年更名以來，就一直不被市場看好，因為元宇宙是3D的、沉浸式的、虛實結合且實時互動的虛拟世界，而開發這樣的應用難度很高，這也是Meta經營了多年的VR内容生态依然弱小的原因。

而現在Meta通過AI來降低應用開發的門檻，ImageBind相當于開發元宇宙應用的AI模型，Make-A-Scene、Make-A-Vido、SAM 和 DINOv2是專用工具或者說元件，在各環節降低開發者的難度。而隻有當内容生産和應用開發都實作AI化，這樣的虛拟世界才稱得上是真正的元宇宙。

Meta還在不斷地推出新工具，6月13日， Meta又開源了音樂生成模型 MusicGen。它能根據使用者輸入的文字提示，生成12秒鐘的音樂片段。還可以使用旋律提示來生成新音樂，使用者輸入一首已有的曲調，MusicGen就會在此基礎上創作出一首新的歌曲。

6月14日， Meta又釋出了類人模型I-JEPA，它能夠準确地分析和完成圖像中缺失的部分。

可以說，Meta的元宇宙AI模型基本成形了，接下來就看開發者怎麼去把這些工具用起來，把這個模型實實在在地跑通。畢竟跟chatGPT、midjourney這樣的單一功能模型相比，ImageBind實在是太複雜了。

通觀微軟、谷歌，它們的AI戰略都是漸進式的，先通過大模型來改善現有的産品業務，比如微軟将OpenAI接入BING、Office和Azure，谷歌将PaLM2接入搜尋、workspace、地圖甚至Android。它們都是先用AI來改造舊世界，而Meta則想一步到位，直接用AI創造新世界。

從這個角度來看，Meta在AI上是最超前的、也是最徹底的。

半年137%的漲幅，是資本市場對Meta的認可。但同時也不能忽視一個風險，那就是Meta在AI上走得太快，它可能成為先驅，也有可能變成先烈。