I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI @June 13, 2023 Meta AI

去年，Meta 的首席人工智能科學家 Yann LeCun 提出了一種新的架構，旨在克服目前最先進的人工智能系統所面臨的局限性。他的願景是建立能夠學習世界内部運作方式的内部模型，以便它們能夠更快地學習，規劃如何完成複雜任務，并輕松适應陌生情況。

Meta推出了基于 LeCun 願景關鍵組成部分的第一個人工智能模型。這個模型，名為 Image Joint Embedding Predictive Architecture（I-JEPA），通過建立世界内部模型來學習，将圖像的抽象表示進行比較（而不是比較像素本身）。I-JEPA 在多個計算機視覺任務上表現出強大的性能，且比其他廣泛使用的計算機視覺模型在計算效率上高出許多。I-JEPA 學到的表示還可以應用于許多不同的場景，而無需進行大量的微調。例如，我們在不到 72 小時内使用 16 個 A100 GPU 訓練了一個擁有 632M 參數的視覺transformer模型，它在 ImageNet 的低樣本分類任務上僅使用每類 12 個标記樣本便取得了最先進的性能。其他方法在使用相同數量的資料進行訓練時通常需要花費兩到十倍的 GPU 小時，并且錯誤率更高。

關于 I-JEPA 的論文将在下周的 CVPR 2023 上展示，也将開源訓練代碼和模型checkpoints。

使用自監督學習捕捉常識知識

關于 I-JEPA（以及更廣泛的聯合嵌入預測架構（JEPA）模型）的研究基于這樣一個事實，即人類僅通過被動觀察世界就能學到大量關于世界的背景知識。有人猜測，這種常識資訊對于實作智能行為至關重要，例如高效地擷取新概念、實作概念的基礎和進行計劃。

人工智能研究人員試圖設計一種能夠捕捉關于世界的常識背景知識的學習算法，然後将其編碼成算法稍後可以通路的數字表示。為了有效，系統必須以自監督的方式學習這些表示，也就是說，直接從未标記的資料（如圖像或聲音）中學習，而不是從手工組裝的已标記資料集中學習。

在較高層面上，JEPA 旨在從同一輸入（例如圖像或文本片段）的其他部分的表示來預測輸入的某一部分的表示。由于它不涉及将多個視圖/增強的圖像表示折疊到單個點上，是以希望 JEPA 能夠避免與另一種被廣泛使用的被稱為不變性預訓練的方法相關的偏見和問題。

與此同時，通過在較高抽象層面上預測表示，而不是直接預測像素值，希望直接學習有用的表示，同時避免生成方法的局限性，這些方法是近期引起極大關注的大型語言模型的基礎。

相反，生成型架構通過移除或扭曲輸入模型的部分來進行學習，例如，擦除照片的一部分或隐藏文本段落中的一些單詞。然後，它們嘗試預測被損壞或丢失的像素或單詞。然而，生成方法的一個顯著缺陷是，模型試圖填補每一位缺失的資訊，即使世界本質上是不可預測的。是以，生成方法可能容易犯一個人永遠不會犯的錯誤，因為它們過于關注無關緊要的細節，而不是捕捉高層次的可預測概念。例如，生成模型準确生成人類手部是非常困難的（它們經常添加額外的數字或犯其他明顯的錯誤）。

常見的自監督學習架構，系統學會捕捉輸入之間的關系。目标是為不相容的輸入配置設定高能量，為相容的輸入配置設定低能量。 (a) 聯合嵌入（不變性）架構學習為相容輸入 x，y 輸出相似的嵌入，為不相容輸入輸出不相似的嵌入。 (b) 生成型架構學習直接從相容信号 x 重構信号 y，使用一個解碼器網絡，該網絡基于額外的（可能是潛在的）變量 z 來促進重構。 (c) 聯合嵌入預測架構學習從相容信号 x 預測信号 y 的嵌入，使用一個預測器網絡，該網絡基于額外的（可能是潛在的）變量 z 來促進預測。

朝着廣泛應用的聯合嵌入預測架構邁出的第一步

I-JEPA 背後的想法是在更類似于人類一般了解的抽象表示中預測缺失資訊。與預測像素/标記空間中生成方法相比，I-JEPA 使用可能消除不必要的像素級細節的抽象預測目标，進而使模型學習更多語義特征。引導 I-JEPA 生成語義表示的另一個核心設計選擇是提出的多塊遮蓋政策。具體來說，我們展示了預測包含語義資訊的大型塊（具有足夠大的規模）的重要性，使用一個資訊豐富（空間分布）的上下文。

基于圖像的聯合嵌入預測架構（I-JEPA）使用單個上下文塊來預測來自同一圖像的各種目标塊的表示。上下文編碼器是一個僅處理可見上下文貼片的視覺變換器（ViT）。預測器是一個窄的 ViT，接收上下文編碼器的輸出，并根據目标位置的位置标記（以顔色顯示）預測特定位置的目标塊的表示。目标表示對應于目标編碼器的輸出，其權重在每次疊代時通過上下文編碼器權重的指數移動平均值進行更新。

I-JEPA 中的預測器可以看作是一種原始（和受限）的世界模型，能夠從部分可觀察的上下文中對靜态圖像中的空間不确定性進行模組化。此外，這個世界模型是語義的，因為它預測圖像中未見區域的進階資訊，而不是像素級細節。

說明預測器如何學習模組化世界的語義。對于每個圖像，藍色框外的部分被編碼并作為上下文提供給預測器。預測器輸出一個表示，表示它預期藍色框内區域的内容。為了可視化預測，我們訓練了一個生成模型，該模型生成由預測器輸出表示的内容的草圖，并在藍色框内顯示一個樣本輸出。顯然，預測器識别了應該填充哪些部分的語義（狗頭頂部、鳥腿、狼腿、建築物另一側）。

為了了解模型捕捉到的内容，Meta訓練了一個随機解碼器，将 I-JEPA 預測的表示映射回像素空間，顯示模型在藍色框内進行預測時的輸出。這種定性評估表明模型正确捕捉了位置不确定性，并以正确的姿勢生成了進階對象部件（例如，狗頭、狼前腿）。簡而言之，I-JEPA 能夠在不丢棄圖像中的局部位置資訊的情況下學習對象部件的進階表示。

更高的效率和強大的性能

I-JEPA 預訓練在計算上也是高效的。它不涉及将更計算密集的資料增強應用于生成多個視圖所帶來的開銷。目标編碼器隻需要處理圖像的一個視圖，上下文編碼器隻需要處理上下文塊。

從經驗上看， I-JEPA 在不使用手工制作的視圖增強的情況下，學習到了強大的現成語義表示 - 參見下圖。在 ImageNet-1K 線性探測和半監督評估中，它的性能也優于像素和标記重構方法。

随着預訓練 GPU 小時數的增加，ImageNet-1k 上的線性評估性能。

I-JEPA 在語義任務上也能與依賴手工制作資料增強的先前預訓練方法相媲美。與這些方法相比，I-JEPA 在低級視覺任務（如對象計數和深度預測）上表現更好。通過使用更簡單、歸納偏差較小的模型，I-JEPA 可應用于更廣泛的任務。

低射擊分類準确率：在 ImageNet-1k 上進行半監督評估，使用 1% 的标簽（每類大約有 12 個标記的圖像）。

人工智能向人類水準智能邁進的一步

I-JEPA 展示了在無需通過手工制作圖像變換來編碼額外知識的情況下，學習具有競争力的現成圖像表示的架構的潛力。特别有趣的是，通過更豐富的模态推進 JEPAs 學習更通用的世界模型，例如，使人們能夠根據簡短的上下文對視訊中未來事件進行長距離的空間和時間預測，并根據音頻或文本提示對這些預測進行條件化。

Meta期待着将 JEPA 方法擴充到其他領域，如圖像-文本配對資料和視訊資料。在未來，JEPA 模型可能在諸如視訊了解等任務上具有激動人心的應用。這是将自監督方法應用于學習通用世界模型并擴大規模的重要一步。

論文位址：https://arxiv.org/abs/2301.08243

【變革】楊樂昆釋出首個更具人類特性的人工智能模型

使用自監督學習捕捉常識知識

朝着廣泛應用的聯合嵌入預測架構邁出的第一步

更高的效率和強大的性能

人工智能向人類水準智能邁進的一步

繼續閱讀

首屆“人工智能與可持續發展國際論壇”在京成功召開！

号稱人工智能發動機的“算力”是什麼？

基于實驗室檢驗的人工智能模型可準确診斷卵巢癌：一項中國的多中心、回顧性隊列研究

科學家用STEM資料集評測神經網絡模型基礎，加快人工智能實作程序

人工智能行業周刊（2024年4月22日—4月28日）——智研咨詢釋出

通用人工智能，是個啥智能？

體驗人工智能魅力感受科技創新力量

美年健康榮膺“2024福布斯中國人工智能創新場景應用企業TOP10”獎項

楊燕青：人工智能是重要的新質生産力

從高山奔向大海，智慧眼邁向通用人工智能重要一步

李軒豪，終于迎來天王山之戰，“人工智能”的名稱究竟有多強！

首批18個！“人工智能+高等教育”應用場景典型案例名單公布，你的高校有入選嗎？【附人工智能人才發展情況】

大道至簡：這一輪人工智能（AI）突破的原因其實很「簡單」

諾獎得主斯賓塞：推進人工智能在國家内部和全球經濟中的可獲得性和擴散

萬字解析Al+ Web3：新型生産關系賦能人工智能時代

英語新聞選譯：人工智能為中美在非洲競争開辟了又一個新戰場