CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI

新智元報道

編輯：桃子拉燕

【新智元導讀】Meta在CV領域又放了個大的！自監督+無需微調，計算機視覺又要不存在了？

繼「分割一切」後，Meta再發DINOv2。

這還是小紮親自官宣，Meta在CV領域又一重量級開源項目。

小紮也是高調表示，Meta一直緻力于開源各種AI工具，而今天釋出的DINOv2更是SOTA級别的模型。能在深度估計、語義分割、圖像相似性比較等方面實作自監督訓練。

小紮表示，用這個模型可以借助衛星圖像生成不同大洲的森林高度。而在未來，還可以幫助醫學成像、糧食産量等方面。

當然，最後小紮還不忘了自己的主打——元宇宙。他認為，DINOv2可以極大地加持元宇宙的建設，讓使用者在元宇宙中的沉浸體驗更出色。

網友高聲大呼，「計算機視覺再一次不存在了！」

效果示範

Meta在官網上放出了深度估計、語義分割和執行個體檢索的案例。

深度估計：

對于不熟悉計算機視覺的朋友來講，深度估計（Depth Estimation）可能是一個比較陌生的詞彙。但其實，隻要了解了其應用場景就能明白是什麼意思了。

簡單來說，對于2D照片，因為圖像是一個平面，是以在3D重建時，照片中每一個點距離拍攝源的距離就至關重要。

這就是深度估計的意義。

右側的圖檔中，相同的顔色代表距離拍攝點距離相同，顔色越淺距離越近。這樣子整個圖檔的縱深就出來了。

再來看幾組例子：

語義分割：

語義分割的含義比較簡單。從字面上看，語義這個詞在不同的語境下含義也不同。比如說，在語音識别領域，語義指的就是語音内容。而在圖像領域，指的就是圖檔内容。

分割就是把一張圖檔中不同的部分用顔色标明，這樣就清楚各部分之間的劃分了。

有點像小時候玩過的塗鴉畫本，在空白的輪廓圖上給不同的部分上色。

當然還是有差別的，畫本中同一部分我們也可以用不同的顔色來裝飾。

如上圖中，橋是一種顔色，河水是一種顔色，草地是一種顔色，遠處的樹又是一種顔色。

更多示例：

執行個體檢索：

這個就更好了解了。上傳圖檔到模型中，就可以從有茫茫多圖檔的庫中找到類似的圖檔。

上圖中的埃菲爾鐵塔就是輸入的圖檔，模型随後檢索出了大量同題材的圖檔，風格各異。

DINOv2

論文位址：https://arxiv.org/pdf/2304.07193.pdf

看完了SOTA級别的示範，接下來我們來看一看藏在背後的技術突破。

要知道，自然語言進行中對大量資料進行模型預訓練的突破，為計算機視覺中類似的基礎模型開辟了道路。

這些模型可以通過産生多種用途的視覺特征，大大簡化任何系統中的圖像使用，無需微調就能在不同的圖像分布和任務中發揮作用的特征。

這項工作表明，現有的預訓練方法，特别是自監督方法，如果在來自不同來源的足夠的資料上進行訓練，就可以産生這樣的效果。

Meta的研究人員重新審視了現有的方法，并結合不同的技術，在資料和模型的大小上擴充我們的預訓練。

大多數技術貢獻的是加速和穩定規模化的訓練。在資料方面，Meta提出了一個自動管道，目的是建立一個專門的、多樣化的、經過整理的圖像資料集，而不是像自監督文獻中通常所做的那樣，建立未經整理的資料。

而在模型方面，研究人員用1B的參數訓練了一個ViT模型，并将其提煉成一系列較小的模型，這些模型在大多數圖像和像素級别上超過了現有的OpenCLIP在圖像和像素層面上的基準。

與學習任務無關的預訓練表征已經成為自然語言處理（NLP）的标準。人們可以照搬這些特征，不用進行微調，并在下遊任務中取得了明顯優于特定任務模型産生的性能。

這種成功被大量原始文本預訓練所推動，如語言模組化或單詞向量，而不需要監督。

在NLP的這種範式轉變之後，研究人員預計，計算機視覺中會出現類似的基礎模型。這些模型能産生在任何任務中都能發揮作用的視覺特征。在圖像層面，有圖像分類，而在像素層面，則有分割（如上例）。

對這些基礎模型的大多數努力都集中在文本指導的預訓練上，即使用一種文本監督的形式來指導特征訓練。這種形式的文本指導的預訓練限制了可以保留的關于有關圖像的資訊，因為标題隻包含圖像中的表層資訊，而複雜的像素級資訊可能不會展現。

此外，這些圖像編碼器需要一一對應的文本&圖像語料庫。文本指導的預訓練的一個替代方法，是自我監督學習，其特征是單獨從圖像中學習。這些方法在概念上更接近于語言模組化等任務，并且可以在圖像和像素層面上捕捉資訊。

然而，自我監督學習的大部分進展都是在小型策劃資料集ImageNet1k上進行預訓練的。一些關于将這些方法擴充到ImageNet-1k之外的努力已經被嘗試過了，但他們的特點是，專注于未經整理的資料集，導緻特征的品質大幅下降。

這是因為缺乏對資料品質和多樣性的控制。

Meta的研究人員關注的問題是，如果在大量的策劃過的資料上進行預訓練自我監督學習，是否有潛力學習所有的視覺特征。他們重新審視了現有的在圖像和斑塊層面學習特征的鑒别性自監督方法，如iBOT，Meta的研究人員在更大的資料集下重新考慮了iBOT的一些選擇。

Meta的大部分技術貢獻都集中在針對模型和資料規模擴大時的穩定和加速判别性自我監督學習等方面。這些改進使新方法比類似的鑒别性自我監督方法快2倍左右，所需的記憶體少3倍，這樣就能利用更大的批次規模進行更長時間的訓練。

關于預訓練資料，研究人員建立了一個模型來過濾和重新平衡包含大量未處理的圖像的資料集。靈感來自于NLP中使用的辦法，使用了資料相似性而非外部中繼資料，且不需要手動注釋。

在這項工作中，一個簡單的聚類方法能出色地解決這個問題。

Meta的研究人員收集了一個由1.42億張圖檔組成的多樣化的語料庫來驗證此辦法。最終提供了各種預訓練的視覺模型，稱為DINOv2，也就是今天我們介紹的主角。

Meta也是釋出了所有的模型和代碼，以便在任何資料上都可以重新訓練DINOv2。

研究人員在各類計算機視覺的基準上驗證DINOv2的能力，并在圖像和像素層面上，還對其進行了擴充，如下圖。

網友：這才是「Open」AI

DINOv2釋出後，網友們也是一緻好評。

「計算機視覺基礎模型正在取得令人難以置信的快速進展。類似于在大規模資料和模型上的自我監督學習所推動的LLMs。感謝Meta開源DINOv2和SAM--對于~~90%的普通領域任務來說，這些模型的能力越來越強，基本上不需要微調。」

「SAM+DINO，在農業方面上應用太強了。」

「Meta 才是真正的「Open」AI 公司！」

參考資料：

https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models

https://github.com/facebookresearch/dinov2

CV圈又炸了？小紮高調官宣DINOv2，分割檢索無所不能，網友：Meta才是“Open”AI

繼續閱讀

好家夥，iPhone16還沒釋出，售價就曝光了，據說全系256GB起步但價格和上一代128GB一樣！如果真是這樣那不得賣

沒想到騰訊在AI方面這麼有實力[震驚]，據IPRdaily中文網最新釋出的中國人工智能發明專利企業排行榜（TOP50）顯

中關村論壇筆記①｜10年後，人工智能将如何改變世界？

浦軟創業營第十期人工智能專場開營暨愛酷空間煥新更新儀式舉辦

真不得了，今年iPhone16系列要“殺瘋”！爆料說有30項更新變化，還說有蘋果自研端側大模型的iOS18，再加上蘋果取

中醫人工智能儀器的出現，預示着中醫采用西醫手段診斷成為可能。

華為是徹底好起來了，在Canalys公布的2024年Q1季度國内智能手機出貨量報告中，華為以1170萬台的出貨量排到了第

換手機的理由+1！說真的，雖然現在很多新手機的性能提升感覺并不強，但在功能體驗還是非常有吸引力的。就比如今年大火的AI手

2024中關村論壇年會|第七屆中關村國際前沿科技大賽落幕：海内外3100餘個項目參賽人工智能展現最強創新活力

首個人工智能選美大賽“Miss AI”，不隻看美貌

面向未來的前沿人工智能監管

牛來了？外資集體做多A股，量子技術和人工智能成大風口丨蔣衍看盤

24fall格拉斯哥大學招收全獎博士生人工智能/資料驅動/機器人方向

張瑾：人工智能與商業變革

Sora短片創作者解釋人工智能生成視訊優點和局限性

昆侖萬維：AI業務矩陣全面建構，定位人工智能科技企業