天天看點

AI布局最超前的,竟然是Meta

作者:科技資本論

作者:盧愛芳 科技資本論

整個上半年,美股科技公司因生成式AI的爆發走出了瘋狂的行情。

我盤點了一下,從去年12月30日到今年6月29日,OpenAI的盟友微軟股價上漲了41%,市值達到2.5萬億美元,僅次于蘋果;

其競争對手谷歌因Bard示範翻車股價一度暴跌,但畢竟是AI領域資曆最深的頭号玩家,最終漲幅也達到了36%;

特斯拉因占據了具身AI領域的領先地位,股價漲幅達到108%;

算力供應商英偉達上漲了180%,市值破萬億美元。

有點意外的是,Meta同期漲幅竟然達到137%,僅次于英偉達。目前Meta市值7318億美元,接近特斯拉的8121億美元。

自更名元宇宙後,Meta的股價伴随着美聯儲的不斷加息節節敗退,最低市值跌到2000多億美元,已然跌出科技巨頭第一陣營FANG。那麼在這輪由AI帶動的上漲行情中,Meta在AI上究竟做了什麼?

首先要強調,Facebook也是最早投入AI研發的巨頭之一,2014年還參與過Deepmind的競拍,最後敗給了谷歌。紮克伯格不甘居下風,他不惜一切代價将與傑弗裡.辛頓齊名、後來一起獲得圖靈獎的楊立昆收入麾下,主導Facebook在AI上的研究。

Facebook本與谷歌并駕齊驅。2016年,Facebook推出了開源的機器學習架構PyTorch,成為後來業界訓練AI的重要工具。

但OpenAI的誕生改寫了局面。當傑弗裡.辛頓的得意門生伊利亞離開谷歌,楊立昆的得意門生紮倫巴也從Facebook辭職,二人雙雙奔赴OpenAI,從此這家創業公司開始和谷歌角逐AI的上司權,而Facebook似乎淪為跟随者。

2017年,谷歌發明Transformer,2018年6月OpenAI推出GPT-1,10月谷歌推出BERT。在BERT開源後,Facebook才在BERT之上推出了XLM、 RoBERTa模型。

2021 年 1 月,OpenAI 推出由文本生成圖像的模型DALL-E,當時生成能力還很弱。2022年2月,谷歌釋出AI繪畫工具Disco Diffusion,比DALL-E的生成效果好,但速度很慢。2022年4月,OpenAI 推出DALL-E2,其能力已經非常成熟。到2022年7月,Meta才釋出了文生圖模型“Make-A-Scene”。

2022年11月30日,OpenAI 推出GPT-3.5的聊天機器人chatGPT,在全球掀起AI風暴。2023年2月24日,Meta才釋出其大語言模型的第一個版本LLaMA。

Meta處處慢人一步,但它采取了跟競争對手不同的政策——開源,這讓它赢得了開發者們的好評和支援。

OpenAI大張旗鼓地商業化,它推出了MAAS模式,向開發者按token收取大模型的使用費。微軟将 openAI整合到其雲服務Azure中,谷歌也将PaLM 2大模型整合進谷歌雲,向企業使用者收費。

而Meta釋出的LLaMA供研究人員免費使用。LLaMA上線後,研究人員們很快開發出很多chatGPT的免費替代品。著名的方舟基金“木頭姐”對LLaMA評價是,用更低的算力、更少的資料做出更好的模型。甚至谷歌内部都有工程師提出質疑,“如果有免費、高品質的替代品,誰還會為有使用限制的谷歌産品付費?”

除了LLaMA,Meta今年上半年還連續釋出了一系列開源的AI模型,隻因OpenAI和微軟風頭太勁,并未引起太多關注。

4月6日,Meta釋出了SAM(Segment Anything Model),該模型可以分割圖像中的一切對象。比如在AR/VR領域,SAM可以根據使用者的目光選擇對象,然後将其“提升”到3D中;對于内容創作者,SAM可以提取圖像進行拼貼或視訊編輯。

SAM是通用的分割方法,已經學會了物體是什麼的一般概念,可以對不熟悉的物體和圖像進行零樣本泛化,而無需額外的訓練。Meta開源了SAM的模型和包含1100萬張圖像和11億個掩碼的訓練資料集。英偉達人工智能科學家JimFan稱,SAM是計算機視覺領域的“GPT-3時刻”之一。

接着,紮克伯格親自官宣推出視覺大模型DINOv2。這是一款用于計算機視覺(CV)任務的基礎模型,DINOv2 在一個由 1.42 億張圖像構成的篩選資料集上進行了預訓練,用以圖像分類、語義分割和深度估計等多個任務。比如輸入一張圖檔,模型就能找出跟它内容相關的圖檔。針對某個物體,模型能準确地識别出它在空間中的位置。紮克伯格認為,它能加快元宇宙的建設。

SAM+ DINOv2是計算機視覺技術的一大突破,開發者們用于探索各領域的應用,有人表示在農業領域太好用了,有人甚至稱贊Meta 才是真正的“Open”AI 公司。

這隻是冰山一角,5月9日Meta釋出的ImageBind才是Meta的大招。ImageBind是一個跨六種模态的整體化人工智能模型,包括圖像、文本、深度、熱度圖、音頻和IMU(運動資料)。它還融合了Make-A-Scene、Make-A-Vido、SAM 和 DINOv2等功能,有超強的跨模态生成能力。

AI布局最超前的,竟然是Meta

比如,給 AI 聽一段火車的聲音,它便能直接生成火車的圖像。當你錄了一段海邊日落的視訊,AI 便能自動根據視訊内容來生成文案和字幕,并比對上合适的背景音樂。

ImageBind 還内置了 3D 感覺和 IMU(運動資料) 傳感器,可用于測量加速度與旋轉運動,讓 AI 能夠身臨其境感受我們在實體世界的變化。未來ImageBind還可以內建更多的感官功能,比如嗅覺、觸覺。

Meta的AI路線已經很清晰,就是為了建設元宇宙。Meta自2021年更名以來,就一直不被市場看好,因為元宇宙是3D的、沉浸式的、虛實結合且實時互動的虛拟世界,而開發這樣的應用難度很高,這也是Meta經營了多年的VR内容生态依然弱小的原因。

而現在Meta通過AI來降低應用開發的門檻,ImageBind相當于開發元宇宙應用的AI模型,Make-A-Scene、Make-A-Vido、SAM 和 DINOv2是專用工具或者說元件,在各環節降低開發者的難度。而隻有當内容生産和應用開發都實作AI化,這樣的虛拟世界才稱得上是真正的元宇宙。

Meta還在不斷地推出新工具,6月13日, Meta又開源了音樂生成模型 MusicGen。它能根據使用者輸入的文字提示,生成12秒鐘的音樂片段。還可以使用旋律提示來生成新音樂,使用者輸入一首已有的曲調,MusicGen就會在此基礎上創作出一首新的歌曲。

6月14日, Meta又釋出了類人模型I-JEPA,它能夠準确地分析和完成圖像中缺失的部分。

可以說,Meta的元宇宙AI模型基本成形了,接下來就看開發者怎麼去把這些工具用起來,把這個模型實實在在地跑通。畢竟跟chatGPT、midjourney這樣的單一功能模型相比,ImageBind實在是太複雜了。

通觀微軟、谷歌,它們的AI戰略都是漸進式的,先通過大模型來改善現有的産品業務,比如微軟将OpenAI接入BING、Office和Azure,谷歌将PaLM2接入搜尋、workspace、地圖甚至Android。它們都是先用AI來改造舊世界,而Meta則想一步到位,直接用AI創造新世界。

從這個角度來看,Meta在AI上是最超前的、也是最徹底的。

半年137%的漲幅,是資本市場對Meta的認可。但同時也不能忽視一個風險,那就是Meta在AI上走得太快,它可能成為先驅,也有可能變成先烈。