天天看點

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

  新智元報道  

編輯:桃子 拉燕  

【新智元導讀】Meta在CV領域又放了個大的!自監督+無需微調,計算機視覺又要不存在了?

繼「分割一切」後,Meta再發DINOv2。

這還是小紮親自官宣,Meta在CV領域又一重量級開源項目。

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

小紮也是高調表示,Meta一直緻力于開源各種AI工具,而今天釋出的DINOv2更是SOTA級别的模型。能在深度估計、語義分割、圖像相似性比較等方面實作自監督訓練。

小紮表示,用這個模型可以借助衛星圖像生成不同大洲的森林高度。而在未來,還可以幫助醫學成像、糧食産量等方面。

當然,最後小紮還不忘了自己的主打——元宇宙。他認為,DINOv2可以極大地加持元宇宙的建設,讓使用者在元宇宙中的沉浸體驗更出色。

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

網友高聲大呼,「計算機視覺再一次不存在了!」

效果示範

Meta在官網上放出了深度估計、語義分割和執行個體檢索的案例。

深度估計:

對于不熟悉計算機視覺的朋友來講,深度估計(Depth Estimation)可能是一個比較陌生的詞彙。但其實,隻要了解了其應用場景就能明白是什麼意思了。

簡單來說,對于2D照片,因為圖像是一個平面,是以在3D重建時,照片中每一個點距離拍攝源的距離就至關重要。

這就是深度估計的意義。

右側的圖檔中,相同的顔色代表距離拍攝點距離相同,顔色越淺距離越近。這樣子整個圖檔的縱深就出來了。

再來看幾組例子:

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

語義分割:

語義分割的含義比較簡單。從字面上看,語義這個詞在不同的語境下含義也不同。比如說,在語音識别領域,語義指的就是語音内容。而在圖像領域,指的就是圖檔内容。

分割就是把一張圖檔中不同的部分用顔色标明,這樣就清楚各部分之間的劃分了。

有點像小時候玩過的塗鴉畫本,在空白的輪廓圖上給不同的部分上色。

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

當然還是有差別的,畫本中同一部分我們也可以用不同的顔色來裝飾。

如上圖中,橋是一種顔色,河水是一種顔色,草地是一種顔色,遠處的樹又是一種顔色。

更多示例:

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

執行個體檢索:

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

這個就更好了解了。上傳圖檔到模型中,就可以從有茫茫多圖檔的庫中找到類似的圖檔。

上圖中的埃菲爾鐵塔就是輸入的圖檔,模型随後檢索出了大量同題材的圖檔,風格各異。

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

DINOv2

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

論文位址:https://arxiv.org/pdf/2304.07193.pdf

看完了SOTA級别的示範,接下來我們來看一看藏在背後的技術突破。

要知道,自然語言進行中對大量資料進行模型預訓練的突破,為計算機視覺中類似的基礎模型開辟了道路。

這些模型可以通過産生多種用途的視覺特征,大大簡化任何系統中的圖像使用,無需微調就能在不同的圖像分布和任務中發揮作用的特征。

這項工作表明,現有的預訓練方法,特别是自監督方法,如果在來自不同來源的足夠的資料上進行訓練,就可以産生這樣的效果。

Meta的研究人員重新審視了現有的方法,并結合不同的技術,在資料和模型的大小上擴充我們的預訓練。

大多數技術貢獻的是加速和穩定規模化的訓練。在資料方面,Meta提出了一個自動管道,目的是建立一個專門的、多樣化的、經過整理的圖像資料集,而不是像自監督文獻中通常所做的那樣,建立未經整理的資料。

而在模型方面,研究人員用1B的參數訓練了一個ViT模型,并将其提煉成一系列較小的模型,這些模型在大多數圖像和像素級别上超過了現有的OpenCLIP在圖像和像素層面上的基準。

與學習任務無關的預訓練表征已經成為自然語言處理(NLP)的标準。人們可以照搬這些特征,不用進行微調,并在下遊任務中取得了明顯優于特定任務模型産生的性能。

這種成功被大量原始文本預訓練所推動,如語言模組化或單詞向量,而不需要監督。

在NLP的這種範式轉變之後,研究人員預計,計算機視覺中會出現類似的基礎模型。這些模型能産生在任何任務中都能發揮作用的視覺特征。在圖像層面,有圖像分類,而在像素層面,則有分割(如上例)。

對這些基礎模型的大多數努力都集中在文本指導的預訓練上,即使用一種文本監督的形式來指導特征訓練。這種形式的文本指導的預訓練限制了可以保留的關于有關圖像的資訊,因為标題隻包含圖像中的表層資訊,而複雜的像素級資訊可能不會展現。

此外,這些圖像編碼器需要一一對應的文本&圖像語料庫。文本指導的預訓練的一個替代方法,是自我監督學習,其特征是單獨從圖像中學習。這些方法在概念上更接近于語言模組化等任務,并且可以在圖像和像素層面上捕捉資訊。

然而,自我監督學習的大部分進展都是在小型策劃資料集ImageNet1k上進行預訓練的。一些關于将這些方法擴充到ImageNet-1k之外的努力已經被嘗試過了,但他們的特點是,專注于未經整理的資料集,導緻特征的品質大幅下降。

這是因為缺乏對資料品質和多樣性的控制。

Meta的研究人員關注的問題是,如果在大量的策劃過的資料上進行預訓練自我監督學習,是否有潛力學習所有的視覺特征。他們重新審視了現有的在圖像和斑塊層面學習特征的鑒别性自監督方法,如iBOT,Meta的研究人員在更大的資料集下重新考慮了iBOT的一些選擇。

Meta的大部分技術貢獻都集中在針對模型和資料規模擴大時的穩定和加速判别性自我監督學習等方面。這些改進使新方法比類似的鑒别性自我監督方法快2倍左右,所需的記憶體少3倍,這樣就能利用更大的批次規模進行更長時間的訓練。

關于預訓練資料,研究人員建立了一個模型來過濾和重新平衡包含大量未處理的圖像的資料集。靈感來自于NLP中使用的辦法,使用了資料相似性而非外部中繼資料,且不需要手動注釋。

在這項工作中,一個簡單的聚類方法能出色地解決這個問題。

Meta的研究人員收集了一個由1.42億張圖檔組成的多樣化的語料庫來驗證此辦法。最終提供了各種預訓練的視覺模型,稱為DINOv2,也就是今天我們介紹的主角。

Meta也是釋出了所有的模型和代碼,以便在任何資料上都可以重新訓練DINOv2。

研究人員在各類計算機視覺的基準上驗證DINOv2的能力,并在圖像和像素層面上,還對其進行了擴充,如下圖。

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

網友:這才是「Open」AI

DINOv2釋出後,網友們也是一緻好評。

「計算機視覺基礎模型正在取得令人難以置信的快速進展。類似于在大規模資料和模型上的自我監督學習所推動的LLMs。感謝Meta開源DINOv2和SAM--對于~~90%的普通領域任務來說,這些模型的能力越來越強,基本上不需要微調。」

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

「SAM+DINO,在農業方面上應用太強了。」

CV圈又炸了?小紮高調官宣DINOv2,分割檢索無所不能,網友:Meta才是“Open”AI

「Meta 才是真正的「Open」AI 公司 !」

參考資料:

https://www.maginative.com/article/meta-ai-unveils-dinov2-a-game-changer-in-self-supervised-vision-transformer-models

  https://github.com/facebookresearch/dinov2

繼續閱讀