RACV2022觀點集錦 | 視覺基礎模型

來源：https://mp.weixin.qq.com/s/pAbMI-qwdCY7-9SeMxDlFw

“本文得到CCF-CV專委會（公衆号: CCF計算機視覺專委會）授權釋出”

視覺基礎模型（Vision Foundation Model）是目前計算機視覺領域最為火熱的研究方向之一。在視覺領域，擷取大量标注資料是非常昂貴的。我們可以通過借助無标注資料、圖文資料或者多模态資料等，采用對比學習、掩碼重建等學習方式預訓練得到視覺基礎模型，用于許多視覺下遊任務，如物體檢測、語義分割等。雖然現有方法已經表現不俗，但視覺基礎模型仍有許多共同關注的問題值得進一步探索，包括如何更好地利用圖文資料、未來視覺基礎模型會如何發展等。我們在RACV 2022組織了“視覺基礎模型”專題論壇，邀請到王井東、王興剛、謝淩曦以及黃高四位專家做了專題進展報告，同與會的40餘位國内專家一道就多個相關話題進行了深入研讨。

專題組織者：王井東（百度）、程明明（南開大學）、侯淇彬（南開大學）

讨論時間：2022年8月10日

發言嘉賓：王井東、王興剛、謝淩曦、黃高

參與讨論嘉賓【按發言順序】：王井東、謝淩曦、程明明、武智融、金連文、沈春華、虞晶怡、鄭偉詩、吳小俊、張磊、毋立芳、王興剛、夏勇、高陽、賈旭、王鶴、王濤、馬占宇、盧湖川、魯繼文、于劍、査紅彬、丁凱、弋力

文字整理：侯淇彬

各位老師好，非常高興來參加今年的RACV。本次的專題是視覺基礎模型，英文叫Vision Foundation Model，咱們有時候也叫大模型。

很多視覺任務，從應用的角度來講，是需要視覺基礎模型的。為什麼這麼講？大家一直苦惱的問題是說能不能給我更多的标注資料，尤其是識别。傳統上我們通常認為（标注）資料越多識别效果越好，但事實上我們很難去獲得非常大量的标注資料，主要原因不在于技術上，而是很高代價去獲得這些标注資料。

最近一兩年，大家覺得從預訓練模型角度來講，是不是可以幫助這些下遊任務。預訓練最近幾年在NLP裡面提的非常的多。很多人覺得視覺裡面這個基礎模型不如NLP發展的顯著。其實這個事情要換個角度看看，視覺裡從13年的RCNN開始，實際上已經在應用預訓練模型。要在這個基礎上進一步提高，實際上是具有挑戰的事情。現在，我們希望通過大量資料，不管是有标注的或者圖文資料，訓練一個網絡，能夠非常容易地應用在一些下遊任務裡面，通過非常簡單的方法，這是我們希望看到的事情。

我自己也有一些簡單的認識，也希望大家能給我一些建議。關于視覺基礎模型，包含了很多元度，這裡面列了5個具有代表性的。第一個需要有大量的資料，沒有資料，我們的模型再漂亮再強，其實很難展現它的效果。第二個，大模型的參數量大，可以用能力來挖掘資料裡面的知識。第三點，就是我們希望有一個所謂的大一統的方案出來去解決各種各樣的任務。另外就是大算法，其實不是說簡單的大資料，大模型就可以了，其實算法還是非常重要，如果僅僅靠大量資料，那這個事情就純變成一個依賴算力的事情了。最後一點就是大算力。

我們談到視覺基礎模型，其實需要學的東西非常多，那最近大家關注更多的是表征訓練。其實談到這個視覺表征訓練，目前主要有兩大類。一個是圖文相關的，比如說OpenAI的CLIP，張磊老師原來在微軟的團隊做的Florence等等，這些資料都是網際網路上非常容易獲得的。另外一大類是自監督學習。其實這裡面我一直在思考，視覺語言訓練出來的表征其實是比較強的，那些語言可能是有一點noise甚至可能是錯誤的或者不全的，但他确實能夠訓練出來強的模型。在大量的資料下，跟有監督的很類似，表征學的很好。自監督，除了圖像其實啥都沒給，怎麼能夠學到很好表征。因為沒有給這個所謂的這個語言監督，也沒有給标簽，這個時候所謂的語義表征實際上是說在表征空間裡面的不同語義的物體表征能夠聚集在一起。

視覺語言看上去非常好，确實它的表征會比之前的會好一些，但是我們還需不需要自監督學習？其實我們真正去應用這樣一個視覺基礎模型和預訓練模型的時候，在很多領域裡面可能沒有圖文裡的文本資訊。這裡面舉一個例子，比如OCR，大家可以想象OCR圖像所給的文字語言資訊可能會是什麼？可能說這個圖關于文檔的，它不會具體到說裡面的文字究竟是什麼，對吧？

之前的自監督方法主要是基于對比學習的。從去年開始掩碼圖像模組化在視覺裡受到大家的關注越來越多，今年上半年已經有非常多的相關工作。就是說它給同樣一個View，然後把一些patch的給mask掉，希望用剩餘的patch預測masked的patch。關于對比學習，我目前一直沒看到它為什麼會work。我大概一兩個月之前跟一位同行讨論這個問題，他有個文章裡面做了這麼一件事情，就把encoder的表征跟projector的表征去做相似patch的搜尋。他發現encoder拿出來特征的part資訊非常好，比如說我們查詢一個狗的腦袋，用encoder特征去搜尋，出來的基本都是狗的腦袋，但是projector出來的結果就比較亂，但基本上還是狗。對比學習裡預訓練的任務是什麼？其實不是很明确，或許是通過projector實作part-to-whole任務。

關于掩碼模組化，我也在思考它究竟怎麼work的。對比預訓練主要學了中間物體的資訊，相比較，掩碼圖像模組化學到了圖像裡目标和背景資訊。我猜想，掩碼圖像模組化是part-to-part的任務。

這裡我也簡單介紹一下我們的工作以及它跟幾個相關的MIM的方法的對比。我們方法首先去抽取可見patch的特征，抽取的時候隻把可見patch資料輸入到encoder裡面去，這意味着我們看到的是沒有mask部分的資訊，然後我們的目的是用可見的patch猜測mask的部分，但這還是不夠的，我們下面加了一個alignment分支，使得MIM任務在表征空間裡完成。最近我們發現在深度學習裡面，其實很多方法都是在表征空間裡面做，比如DALL·E 2我認為在表征空間裡面，如果說我們把任務解決得很好的話，那有可能學到的表征都非常好，是以希望regressor出來的表征也是在encoder的表征空間裡的。

BEiT在幹什麼？masked圖像經過一個ViT網絡結構，然後經過linear層直接得到最後的重建圖像。這個ViT既要學習表征，同時也能解決預訓練任務。解決預訓練任務本身學到的知識，對我們下遊任務不見得有多大幫助，但是BEiT裡面是混合在一起的，是以我認為這個方案學到的表征不見得那麼好。

下面這個MAE的工作，隻看decoder那部分跟BEiT很像，隻不過前面加了一個encoder。實驗證明了它結果非常好。從我的角度來看，MAE也是要把預訓練任務跟encoder分離開，這個情況下其實不能保證decoder是隻做重建任務。這個所謂的decoder可能也會學可見patch的表征，前面encoder的能力就會被削弱。我認為，預訓練任務一定要和encoder分開，不能混在一起，希望就剛才講的要在表征空間裡去做預測。下圖是比較的總結。

與MIM對比，對比學習一般把中間的物體學得很好，它highlight的基本是中間的物體。然後MIM的方法會把整個區域都highlight出來，換句話講整個圖像的資訊都會學得非常的不錯。

各位老師早上好，非常榮幸有這個機會來彙報一下關于視覺基礎模型的一些了解。

在NLP裡面，像Bert這種被認為是基礎模型，但視覺裡面什麼是基礎模型，其實至今我覺得是沒有一個很明确的定義。是以我這裡引用了一個斯坦福學者在去年的時候寫了一個綜述，On the opportunities and risks of foundation models裡面的一個定義。在這個定義中，我們希望能夠把所有多模态資料彙聚起來一起來學習，然後能夠适應到很多的下遊任務。

它有兩個很重要的特性，一個叫Emergence，另外一個叫homogenization。這兩個詞我覺得我們可能需要去了解一下，它有兩個中文的翻譯，我也是參考其他的翻譯但不一定準确。第一個就是湧現。湧現就是說我們希望學習形式是隐式的，而不是非常直接去顯示學習。比如我們需要去做目标檢測，我們希望學了一部分類别，然後對其他所有的物體都能夠去檢測。再比如，現在的一些視覺模型，訓練階段是一個分類的模型，最後能夠做分割，能夠對定位很有作用，這就是一種隐式學習，這樣的話才能夠去為更多的任務提供支撐。另外一個就是同質化，同質化主要意思是一種牽一發而動全身的特性，基礎模型改變了，其實對所有的下遊任務都會有影響。現在來講，大部分的基礎模型學習的技術手段基本上都是非常大規模的自監督學習。

同樣在斯坦福HAI的技術報告裡面，我們可以看到它對視覺的基礎模型也做了一個描述，左邊是多模态資料，經過訓練，得到一個基礎模型能夠用于檢測分割、三維重建、常識推理等各種下遊任務中，是以我們對視覺基礎模型的期待是非常大的。其中核心要做的事是希望能夠把多模态的資料通過學習之後能夠變成視覺knowledge，當然這是個非常困難的遠景。

這我個人有一點點了解，我做了一個不是特别準确的公式，我認為視覺基礎模型它包括第一個就是做大規模的資料，這個資料可以包括圖像視訊、語言，也可以加上其他模态的資料。如果說我們資料變得更多，結果應該會變得更好。第二個就是模組化，其實主要指的是網絡架構。第三個就是表征學習。最後第四點是adaptation，就是說能夠去适應到下遊。

就模組化而言，其實我們有很多很多的探索以及成功的經驗，比如說去年得馬爾獎的Swin Transformer，RepLKNet和HorNet。

在資料限定、計算限定情況下，他們表現非常好，相對于樸素ViT，他們具有更好的資料效率和計算效率。然而，最樸素的ViT這個架構其實也是非常好的。

我看可以參照推特上的一個圖。ViT這種最樸素的模型其實也有非常好的可擴充性，這裡我引用了一個Google最近寫的Survey，它做了很多的實驗。第一個結論就是不能在樸素的ViT上面加太多inductive bias。加上inductive bias可能在特定資料上表現非常好，但是它的可擴充性是有傷害的。第二個就是說不同模型架構可擴充性不一樣。第三點base模型可能表現很好，如果我們把它變到large或者huge上面，它這個提升并沒有（base、large、huge對應的是模型的參數量）。總的來說，樸素ViT其實是一個很好的選擇。

在這個task layer層面上，最近也有很好的工作，比如說mask2former以及Unicorn。他們核心點在于query加self-attention，目的是把一些任務做到統一。是以我們可以總結樸素的注意力機制在backbone和task layer上的表現都是非常好的。

對于表征，現在主要有兩大核心的思路，第一個對比學習，另外一個是MIM（視覺掩碼模組化）。最近有一些工作表明這兩大表征其實可以同時用，發現兩個表征其實是有很好的互補性。二者結合的好處可能是對比學習具有可區分性，MIM可以得到很好的泛化性能，二者的好處能夠得到結合。

那Vision了解其實我們不應該局限于圖像的分類，更多的其實我們希望能夠走向檢測分割甚至三維了解，甚至是更進階的任務。

最近微軟有一個工作叫GLIP，它其實做box-level的對比學習。說對于每個box它都有一個文本表示，然後用CLIP的形式去對每一個box學習。通過收集很多有具有box-text的标注資料能夠訓練得到一個很好的模型，它能夠去做開放環境中的檢測。我個人認為這其實是對視覺基礎模型的一個很好的探索。希望它能夠去識别出一些新的類别——這些新的物體沒有被學過，但能夠被檢測出來。

還有一個工作叫Detic，它其實是用傳統檢測器把box supervision和class supervision做一個結合，對于很多沒有box訓練過的類别，也能夠得到非常準确的檢測。這是一種通過這種混合的監督來擴大資料規模，同時能夠檢測出一些新的類别的有效的技術手段。

最後講一下關于adaptation的進展，比如最近一個工作做開放場景目标檢測，它是把左邊這個标準clip加了一個檢測的頭（類似我們的NeurIPS 2021工作YOLOS方法的檢測頭），用檢測頭輸出的box與對應的文本做對比學習，它能夠将clip做很小的改動，進而實作開放場景的目标檢測，是以這也展現了adaptation的優勢。

那關于MIM的adaptation，何凱明他們自己也做了一些工作，ViTDet，它的一個核心思路其實說在一個樸素ViT上面加一些window和global的attention，然後在這個backbone基礎上拉出4層feature，這樣的檢測結果也是非常好的。

我這裡講一點點我們在adaptation上面的一個工作，MiMDet。不同于ViTDet，我們不采用window attention，而是下遊檢測分割任務中隻取一部分patch輸入到ViT重，得到的是一個可以高效計算的架構，并且能夠縮小上遊預訓練和下遊adaption之間的距離。這樣一個架構在底層加一點點conv可以得到多尺度的表征，最終可以得到很好的檢測分割結果。

最後簡單總結一下，視覺基礎模型最重要其實還是它是可擴充的。如果說它隻在一個有限的資料集上表現很好而沒有去驗證它在大規模資料上的可擴充性，其實還是不夠的。另外就是下遊任務應該也是可以擴充的，應該不局限于分類這樣一個下遊任務。第二點是說樸素的ViT其實都是非常好的，它能夠非常靈活去unify很多任務。然後表征學習層面上，對比學習和MIM某種程度上可能是互補的。最後就是adaptation層面上，其實是可以做得很高效，去解決一些目前的任務。

個人認為未來可能有一些挑戰，第一個就是對MIM的了解，現在有一些文章表現說MIM可能沒有資料擴充性，但是這個可能還是存疑的。另外一個就是說當圖像複雜時，怎麼去做區域和文本描述的對齊，是以弱監督的表征學習非常重要。另外一個就是跨模态的表征學習，目前的對比學習和MIM如何适應跨模态資料，或者說在跨模态架構下有何種更好的表征學習形式。我認為視覺基礎模型的發展其實是一個大工程，也是希望國内計算機領域共同努力去突破包括計算瓶頸在内的一系列問題，謝謝。

各位老師大家上午好，非常高興今天能夠有這個機會向大家分享我們最新的一些研究以及心得體會，我今天報告的題目是《走向無線細粒度的按需視覺識别》。

我的報告主要分為兩個部分。第一部分我會介紹什麼是視覺識别中的無限細粒度問題，以及為什麼現有的視覺識别算法無法做到無限細粒度。第二部分，我會講講我們自己最近的一個研究提議，也就是按需視覺識别，以及為什麼我們這個提議能夠走向無限細粒度。我講的内容跟前面兩位老師可能是互補的，因為比起預訓練和模型設計，我更關注目前的視覺識别算法在下遊任務上能不能達到完整識别的目标。

先從背景說起。視覺識别是計算機視覺中最本質的問題之一，我今天要讨論的問題，是目前的視覺識别算法能不能做到“完整”的視覺識别。“完整”的意思就是我們能夠從一段視訊或一張圖像中識别出所有能夠識别的東西。我們這裡引出一個“無限細粒度”的概念：人類隻要願意，他就可以從圖像或者視訊當中識别出任意精細程度的語義。顯然，目前計算機視覺的标注系統和算法都做不到這一點。

比如我們看一張普通的街景圖檔，它來源于ADE20K資料集。雖然資料集的作者在街景圖檔中标注了很多東西，如人、車、道路、建築物、天空等，對于人、車、建築物，它還力所能及地标注了一些part，但是很顯然還有很多沒标出來的視覺資訊。我分類列舉未标注資訊的例子。第一類是一些細粒度的分類，比如這個人的性别是什麼、這個車的型号是什麼，等等。第二類是将某些part劃分為更精細的part，比如說他們雖然把人分成了頭、軀幹、四肢，但是我們顯然可以對頭進行更進一步的分割，成為眼睛、鼻子、嘴巴，甚至在分出眼睛以後還能繼續分出眼球、睫毛和瞳孔。第三，可以往這個資料庫裡面加入一些它沒有學過的概念，比如說這個人身上有個手提包，它沒有标出來。第四，我們還可以标注一些屬性類的資訊，比如說這個人的衣服是什麼顔色、這輛車是什麼顔色、馬路上有沒有積水，等等。能夠标注的語義資訊幾乎是無窮無盡的。

既然如此，為什麼已有資料集沒有标注這些資訊呢？主要原因是，随着标注粒度的不斷上升，會産生很多新的問題。我們把這些問題歸納為兩點。第一點叫做缺乏一緻性。比如在這個街景圖上有很多行人。如果這個人分辨率很大，我們可以看得很清楚，進而去标注他的頭、軀幹、四肢；但是對于大部分分辨率很小的人，我們甚至無法把他的整體輪廓準确地标注出來。也就是說，不同個體的可标注粒度可能有很大不同，但是目前的系統都不能支援這一點。第二個是可擴充性。系統必須能夠支援我們友善地引入新的語義概念，不管是新的part還是新的類别，但是現有的方法都多少有些困難：要麼在加入新概念以後，必須把整個資料集再掃一遍，看看以前有沒有漏标這個東西；要麼必須引入諸如增量學習這樣的方法——總的來講引入新概念的代價還是比較大的。

為了強化上述概念，我們調研已有方法如何增加視覺識别的粒度。我們主要把已有的方法分成兩大類。第一類，我把它稱之為基于分類的識别方法，它包含傳統意義上的分類、檢測、分割等一系列的問題，它們的共同特點就是要給圖像中的每個視覺單元配置設定一個類别标簽。這類方法比較容易定義，學習方法也很好設計，但它有一個非常明确的缺點，就是随着标注粒度的上升，它的确定性會不可避免地下降。這個沖突很好了解：舉例說，我們很容易識别車這個概念，但是如果我要把它進一步細化成跑車這個概念，就會遇到很多情況，我們很難說清楚一輛車到底是不是跑車。這就意味着，當我們走向無限細粒度的時候，标注的确定性會成為很大的問題。那麼人是怎麼解決這個問題的？其實人并不需要非常顯式或者說非常确定的分類能力，比如我去商店裡面買輛車，我不會糾結于這輛車到底是不是跑車，隻要這輛車的性能滿足我的要求就可以了。這說明，人類不會永遠追求最細的粒度，而是可以根據需求靈活地調整識别的粒度。這是我們得到的一個啟發，後面會用到。

關于分割，情況也是很類似的。當我們通過分割instance和part等資訊，把空間上的标注粒度不斷加細，那麼标注的确定性也一定會下降。典型的例子是，如果我們一定要把分辨率很小的個體劃分出來，那麼有可能一兩個像素就會對分割精度造成很大的影響。這就是在空間上的不确定性，而剛才講的分類問題對應于在語義上的不确定性。

第二類，我把它稱為語言驅動的識别方法。這是一種用自然語言引導視覺識别的模式，在去年CLIP模型出現以後，這類方法有了長足的進步。它的基本思路很簡單：通過語言的指代，将圖像中的相應語義識别出來。這類方法确實增加了視覺識别的靈活性，也引入了重要的開放域能力，但是語言的指代粒度很有限，想要描述細粒度的識别任務很困難。以目前流行的視覺prompt為例，雖然我們可以通過a photo of something對于簡單圖像做分類，但是要通過類似的方法在複雜圖像中指代一個特定的個體并對其進行分析，就非常困難。這說明，簡單引入語言并不能解決問題，還需要将語言與視覺結合起來。

總結報告的前半部分，我們可以得出結論：目前的視覺識别算法還沒有辦法去實作無限細粒度的識别。但是這個問題非常重要，因為人類是有這種能力的，我們也希望算法能有這樣的能力。根據上面的分析，我将走向無限細粒度的三個要點列舉出來。第一是算法必須有開放域識别能力，而這種能力很可能由自然語言提供。第二點是識别任務需要指代明确，不能因為引入了自然語言，就把語言的不确定性和模糊性引入進來。第三點，也是今天最希望強調的一點，是識别算法必須具有可變的粒度，能夠根據需求調整識别粒度。隻有這三點都實作了，我們才能走向一個無限細粒度或者說任意細粒度的視覺識别。

結合這三點，尤其是最後一點，我就提出了按需視覺識别的概念。按需視覺識别是跟傳統意義上的一次性視覺識别或者統一視覺識别相對應的一個概念。什麼叫統一視覺識别？就是标注者或者算法會事先拿到一個字典，字典中規定了所有要識别的視覺概念；每當他看到一張圖檔的時候，他就必須按照字典把其中規定的所有概念一個一個地識别出來。比如說這個字典當中規定了人和人的頭部這兩個概念，那麼當他看到一張街景圖檔的時候，他就必須把這張街景當中所有人的頭部都給識别出來。即使街景中有100個人，少識别1個人或者1個人的頭部，都會被認為是不準确的識别。這樣做，就會導緻前面所說的問題。

而按需視覺識别不再要求這個識别要一次性完成，而是把識别任務分解成若幹個request的形式。目前，我們定義的request有兩類。第一類request，輸入是一個instance，而輸出是這個instance的所有part的semantic分割。一個instance具有的part，通過一個階層化的字典來定義，我把這個字典稱為知識庫。比如，字典裡有車的概念，當我們需要将一輛車分成part的時候，就會去查這個字典，然後得知這個車要分成車門、車輪、車架子等part，并根據這些資訊完成分割任務。第二類request，輸入是一個semantic區域（可能包含很多instance）和這個區域裡的一個像素位置，輸出是這個pixel所對應的那一個instance，将它從semantic區域中分離出來。也就是說，第一類request是從instance到semantic的分割問題，而第二類request是從semantic到instance的分割問題。它們是互補的，我們隻要将它們反複組合、反複疊代，就可以以任意的粒度去分割這張圖。這裡要強調的是，第一類request的輸出必須是semantic而不是instance，因為instance可能有很多，如果直接要求把每個instance都識别出來，就違背了按需識别的思想。為了得到instance，必須再次調用第二類request，把那些感興趣的instance識别出來。

這是一個典型的标注過程。和傳統的setting相比，按需識别的最大優勢在于，我們可以在任何一個步驟上停下來，而不影響标注的準确性。也就是說，對于每張圖來說，标注可能不完整，但是标注永遠保證精确。例如一張街景圖檔上有100個人，我隻用标注其中一兩個人，也完全不影響後續的識别和評估算法，因為标注、識别和評估都是以request為基本機關進行的。雖然每張圖示注的資訊都不完整，但是算法總可以從不同的圖像中學習各種資訊并且把它們整合起來。換句話說，我們追求從整體資料集中學習到無限細粒度的語義，但是并不要求在所有的instance上都去實作無限細粒度。這是一個非常重要的性質，隻有這樣才能解決粒度和不确定性之間的沖突。

如果大家能接受上述想法，包括我們的setting，那麼我今天最重要的内容就已經講完了。至于後面怎麼去實作這個 setting，反倒是一些細節性的事情，其實并不是非常重要。簡單地說，任何一個能夠結合語言和視覺的算法，都可以做到這件事情。我們的示意圖也很直覺：算法抽取視覺特征和文本特征，然後把兩組特征結合在一起，就可以了。

我們在兩個資料集上進行了實驗。第一個資料集叫做CPP，它是一個标注相對完整的資料集。另一個是ADE20K，這個資料集有很多語義概念和很多part，但是它的part标注非常稀疏、非常不完整，是以之前從來沒有任何方法能夠在這個資料集上量化地對part分割結果進行評估。而我們提出的setting，因為天生适應不完整的标注，是以也第一次在ADE20K資料集上報告了帶有part的量化分割精度。

為了計算按需識别的精度，我們擴充了全景分割的PQ名額，使得它能夠評估階層化、不斷細分的分割結果。這個新的名額稱為Hierarchical PQ。

在CPP資料集上，我們用合理的baseline，得到的HPQ大約是50-60%。然而在ADE20K資料集上，相同的方法隻能做到30%左右的HPQ。可以想象，如果把ADE20K标注得更完整，特别是把比較困難的語義都标注出來，這個HPQ值還會繼續下降。也就是說，相比于傳統的語義分割和執行個體分割，按需識别的提升空間更大。這也說明，在追求無限細粒度識别的過程中，我們會遇到很多之前沒有遇到的困難。

最後展示一些可視化的分割結果。可以看出，我們的方法能夠學會一些标注得很少的part的概念，而并不需要用到任何複雜的學習技巧。

作為最後的總結，我今天的報告提出了計算機視覺中的無限細粒度問題，以及為了達到這個目标，必須滿足的三個條件：開放性、特異性和可變粒度。而基于可變粒度的思想，我們提出了按需視覺識别的方法。在未來，我們提出的按需視覺識别還有很多工作要做，由于時間關系我沒法仔細講。我覺得這個方向是非常重要的，期待與各位共同探讨這個問題。

非常高興也很榮幸能夠再一次來到RACV作引導發言。今天我将從視覺基礎模型的結構和學習方法兩方面分享自己的一點思考。抛出的觀點不一定很成熟，希望能跟各位老師探讨和交流。

關于模型結構，我認為可以分為微觀結構和宏觀結構分别來讨論。

首先在微觀結構方面，這兩年探讨得比較多的就是attention。到底要不要用attention，目前在NLP領域基本上是形成共識了，在視覺領域，我認為attention也是一個非常可取的微觀設計。

它的優勢主要展現在三個方面：第一是關系模組化能力，即能夠有效模組化圖像不同區域之間、視訊不同時間節點之間的關系，尤其是對全局關系的學習和長程模組化能力優于常用的卷積算子；第二是高階學習能力。神經網絡本質上是一個關于輸入x的函數，它關于x始終是一個一階函數。但是引入attention之後，由于Q和K之間的乘法運算，關于輸入x就至少是一個二階函數。高階計算在表征能力上更強，是以我們可以看到基于attention的結構在大資料集上有更強的scalability。第三是動态計算的能力。由于attention值是基于每個輸入樣本計算的，即data dependent，是以attention可以了解成一種動态計算。從這個角度，基于attention的網絡在表征能力和計算效率方面也有突出的優勢。

是以，從以上多個角度來看，attention所具備的優勢都是視覺領域所需要的。

接下來，Transformer和CNN兩種網絡結構的對比是這兩年讨論得非常激烈的一個話題。需要注意的是，Transformer與CNN的對比，并不等同于有attention和無attention的對比。因為Transformer和CNN通常是指一個完整的網絡結構，它們之間的差異不僅展現在有無attention，還包括很多其他的宏觀和微觀上設計的不同，這些因素都會影響模型的性能。目前視覺Transformer系列包括ViT、Swin Transformer、PVT等，最新的CNN結構包括ConvNeXt、Large Kernel CNN等。

從目前已公開論文的結果來看，在ImageNet及以下規模的資料集上，這兩個模型孰強孰弱的争論還在繼續。但是在更大的資料集上，我們看到的是具有attention機制的Transformer結構似乎有更好的scalability。

當然，我們在對比Transformer、CNN這兩大類模型的時候需要特别的謹慎，因為雖然從名字上看迥然不同，但兩者實際上有許多相通和可以互相借鑒之處。許多結構設計并不一定專屬于Transformer或者CNN。簡單的根據幾個實驗結果就斷言這個結構好、那個結構不好并不是很嚴謹。今年公開的ConvNeXt論文就揭示了通過合理選取卷積網絡的kernel size、normalization layer、activation layer等，就可以将一個标準的CNN改造成與Swin Transformer性能相當的網絡。與其去争論Transformer和CNN到底誰好，不如多去考慮如何各取所長，實作互補。CNN固有的inductive bias對圖像低層特性學習是合理而且自然的，而Transformer在關系模組化上有突出的優勢。實際上，基于融合CNN與Transformer優點的思想，産生了很多不錯的工作，如CoAtNet、Container、TransCNN等。

今年我們組在CVPR上發表的工作ACmix，就是在微觀結構上去融合CNN和Transformer兩種結構。我們發現，從計算的角度，兩者實際上共享相同的“主幹”，隻是實作特征聚合的“頭”不一樣。基于這個觀察，我們可以在已有CNN或者Transformer基礎上，通過引入少量額外的計算量，就可以比較優雅地實作兩者的融合，使網絡具備彼此的優點。

這兩年微觀結構設計方面的進展還包括對大kernel卷積的重新審視。大kernel在下遊任務上優勢非常明顯，而通過與depth-wise conv相結合，計算量并不會增加太多。

在宏觀結構方面，我們還需要繼續讨論 Transformer和CNN，因為宏觀結構設計對兩者性能的影響也十分重要，比如說每個stage配置多少層，對結果影響非常顯著。

此外，關于plain ViT和hierarchical ViT的讨論和比較也在繼續。最早的plain ViT和DEiT都是保持主幹網絡特征圖尺寸不變，而Swin Transformer和PVT則采用的是特征金字塔結構，進而使得以前為CNN設計的結構可以直接進行借鑒，尤其是更加容易适配下遊任務，是以在最近受到廣泛關注和使用。不過最近研究發現其實plain ViT的結構即便在主幹網絡使用統一尺寸的特征圖，也能通過後期對特征圖進行下采樣構造特征金字塔，并且在檢測等下遊任務上取得不錯的效果。由于Plain ViT在設計上更為簡潔，是以也具有較好的發展前景。關于到底哪一種結構更好，目前還未形成定論。

在宏觀結構方面，DeepMind提出的Perceiver是這兩年讓人眼前一亮的網絡結構。它和常見的CNN、Transformer結構很不一樣，其主幹的輸入是一組latent array，不同模态的資料（圖像、文本、語音）向量化之後與主幹網絡的latent array去做cross attention。因為Perceiver沒有采用self attention，是以它的計算量不會随輸入的次元平方增長。我認為這是一種很有創新性的結構，在一定程度上實作了記憶和計算的解耦。實際上，不管是CNN還是Transformer，網絡所謂的記憶都是分布式的存在于模型參數中。網絡參數同時承擔計算的任務，也具有記憶的功能，兩者是融合在一起的。而Perceiver的很多記憶是存在于latent array中，由于latent array是獨立且顯式存在的，這對于提升神經網絡可解釋性和遷移性是有幫助的。網絡學習的過程可以了解為根據外界的輸入信号，從網絡的記憶中去做比對或檢索，整個過程變得容易被了解。Perceiver結構在一些特定的任務上取得很好的性能，雖然目前并沒有跟CNN和Transformer在ImageNet等主流的資料上做直接對比，但我認為Perceiver為網絡結構設計提供了一種新的、有價值的思路。

宏觀結構方面另一個值得一提的是視覺大模型。目前最大的視覺模型之一是Vision MoE，有150億參數。其核心思想是采用混合專家模型（mixture of expert），這本質上是一種動态模型，可以讓模型參數量很大而不至于計算量太多。Vision MoE在達到已有模型相近的準确率時，計算量能夠縮減一半。我認為動态推理在大模型上有非常好的前景。在小模型上，動态計算可能會面臨稀疏計算在GPU上實際計算低效的問題。但往大模型上走，碎片化的問題被大大緩解，動态訓練和動态推理會有更大的潛力。

在深度模型的學習方法方面，不得不提的是自監督學習。剛才幾位老師也都提到了，目前主要是兩條路線。一類是對比學習，利用圖像的不變性去構造contrastive loss; 另一類是基于掩碼重構的方式。我個人認為這兩類方法更多的是在學習低層的特征，由此得到的模型的淺層特征遷移性很好。但由于缺乏類别、物體整體性等資訊，僅僅給模型喂大量的圖像讓它去做重構和對比學習，可能很難形成真正高層語義的了解。

上面提到的自監督學習是在隻有圖像的封閉集合上做訓練，在整體性和高層語義的學習方面比較受限。最近兩年關于多模态資料的自監督訓練是我個人更感興趣的一個方向。其中，視覺-語言預訓練模型CLIP是一個非常重要的進展。我認為多模态預訓練中最重要的要素是“互監督”，即利用不同模态資料的對應關系構造對齊損失。當文本資訊與圖像形成互監督時，語言就能夠為圖像識别任務提供豐富的語義資訊，進而适應相對開放的場景。例如考慮分類任務，人工标注的類别始終是一個有限的集合，我們辨別了1000類的資料，模型就隻能識别1000類。當有了語言模型提供的豐富語義，視覺學習就能擺脫類别數量的局限。是以像CLIP這樣的模型能夠做非常好的零樣本學習，碾壓之前所有的方法。

但是原始的CLIP模型還有很多局限，仍然缺乏對視覺輸入中物體結構的學習，并且依賴大量的圖文對。但它證明了互監督學習的強大，極大地推動了多模态學習的研究。

最近一年來，多模态大模型發展十分迅速，例如Florence、女娲和悟道模型都是優秀的代表。其中，Florence是一個非常ambitious的模型，同時探究了多模态學習的三個次元：模态、時間和空間。Florence模型不止能做分類，同時可以做目标檢測和分割等任務。不過美中不足的地方在于檢測、分割等任務還依賴監督式訓練。

我認為互監督多模态學習的未來，一方面會如Florence模型一樣，統一更多的視覺任務；另一方面會像自監督學習那樣，在預訓練階段擺脫對資料标注的依賴。正如Jitendra Malik所說的，标注資料是計算機視覺的鴉片。如果仍然依賴大量的人工資料标注，是很難訓練出視覺通用基礎模型的。

是以，我認為視覺基礎模型研究中一個非常重要的方向是如何在多模态資料之間構造互監督學習損失，以一種不需要（或者隻需要少量）人工标注的方式，實作大規模的預訓練。人類的學習過程能夠很好地綜合圖像、視訊、文本、知識等諸多模态的資訊，而目前基于深度學習的AI基礎模型仍處在起步階段，對多模态資料之間的互監督關系挖掘尚不充分，我們能做的事情還很多，機會也很多。

我們第一個議題是對比學習和掩碼圖像模組化兩種方法究竟學到的是什麼？後者在下遊任務上的性能會比對比學習好很多，對比學習是否會被代替？

這個問題的範圍很大，首先我來簡單地談一談我的了解。我認為對比學習是不會被替代的，因為對比學習有很多獨有的優勢，其中一點就是它允許我們把一張圖像放在一堆圖像的context裡去學習如何才算是找到自己的另一個view，這是非常重要的。這也是掩碼圖像學習最大的一個缺點，其隻針對單張圖像進行學習。此外，往大了說，我認為現在的自監督學習應該是去學習視覺信号的一個高效的表征。所謂高效的表征，即把它壓縮了非常多倍之後，它還能重建出自己，或者認出自己到底是誰。從這點來說，對比學習天生的适應能力應該更強一些，它的context能力也更重要，而MIM則具有一定局限性，是以我認為對比學習不會被替代。

我也補充幾點，我覺得對比學習是不會被替代的。另外，我也在思考為什麼我們會有這樣的疑惑？或者說為什麼有人會認為對比學習會被替代？我認為主要是因為現在自監督學習的好壞大多是通過一些底層的任務來進行評價的。例如，我們會用ImageNet做一個分類任務來評價自監督學習表征的好壞。然而，像分類任務這樣的底層任務需要的資訊特别少，可能導緻一些方案看起來不錯，但做一些其他任務（如高層語義任務）時，就會出現一些問題。我們前段時間也在做一個1000類的無監督語義分割任務。我們發現很多自監督學習模型在分類任務上表現得很好，但其學到的表征無法直接應用于這種語義分割任務中。此外，對于規模特别大的無監督任務，它無法去做Finetuning，這個時候直接使用就會遇到很多的困難。是以，我認為我們在評價自監督學習模型好壞的時候，不光得看在ImageNet訓練得到的Performance，還得看其對更高層語義任務的适應性，這些任務才是我們通常要直接使用的，謝謝大家！

謝謝各位老師！我先簡單說一下在我的了解中這兩種學習有什麼不一樣的地方。我認為對比學習學習的是不變性，但掩碼圖像模組化刻畫的是所有的變化（例如，當你需要預測一張圖檔的其餘部分，就必須要預測該圖檔的其他部分，即圖檔的尺寸、物體的大小、物體的不同以及顔色等）。是以這兩個方法之間有着很大的不同，學習到的知識也不同。至于說對比學習是否會替代掩碼圖像模組化，我的觀點和前面兩位老師不太一樣，我對掩碼圖像模組化持更加樂觀的态度，因為其學習到的知識是非常豐富的，不僅學到了語義的資訊，還可能學到了别的東西。如果你把這些資訊在預訓練階段丢掉的話，那麼對于下遊任務是非常不利的，因為你不知道下遊任務遇到的問題可能會用到哪種資訊，保留的資訊越全面可能對下遊任務越有幫助。此外，我在機關和我的老闆Steve讨論的時候，他的觀點更加明确，他甚至認為掩碼圖像模組化可以學習到一些三維的結構資訊，因為如果不知道三維資訊的話，将很難準确地對物體進行重構。在這個觀點下，我認為掩碼圖像模組化學到的資訊顯然比對比學習更加豐富，我也更看好它，謝謝。

今天主要是來學習的，聽了前面幾位老師的觀點很受啟發。從我比較粗淺的了解來看，對比學習是屬于判别式自監督學習的範疇，而圖像掩碼模組化例如MAE等這樣的架構，是屬于生成式自監督學習的範疇。舉個例子來說，一個會造車的人，他肯定會比一個隻會開車的人對汽車的了解要深刻的多，是以從這個角度上來講，我很看好圖像掩碼自監督學習這種生成式架構，因為如果你能夠通過生成的辦法把你要了解的任務給描述出來，那你一定是對這個任務本身有更深刻、更好的了解；因為你隻有對一個任務了解好了，你才能夠把它給生成得好；而一旦你能夠把它生成的好，再去解決這個任務相關的問題，例如去解決感覺識别問題、或者做推理、預測等任務，那可能也相對容易很多。

我非常同意金老師剛才提到的。我個人認為掩碼圖像模組化的訓練方式跟生成式模型存在一些潛在的聯系。無論是MAE還是MIM，二者都是在做重建。如果抛開網絡架構的不同，根據它們的Loss Function可以看出這兩個任務和之前機器學習中的Denoising AutoEncoder沒有本質的差別。比如，最近兩年比較熱的Diffusion Model，在訓練的時候可以選擇兩種不同的Object Function，它們的效果都不錯，而其中一種的本質為Denoising AutoEncoder，隻不過其在訓練過程中相較于MAE和MIM更加複雜，需要不斷地進行疊代。是以，我覺得MAE和MIM這種學習的方式肯定和生成式模型存在一個對應的關系。雖然現在還沒有相應的論文去嚴格地證明二者間在理論和資料上的關系，但從訓練使用的Loss Function可以看出這兩者是存在一緻性的。

我簡要地談一談我為什麼覺得對比學習不會被替代。剛剛兩位老師說對比學習是判别式，而掩碼圖像模組化是生成式，這個我完全同意。但從另一個角度看，我認為它們都是基于退化的學習。什麼是退化呢？退化的意思是把原來圖像中已經有的資訊給丢掉。比如，預處理通過crop把圖像中的部分資訊給丢掉，那麼對比學習就需要去判斷我丢掉的資訊是什麼，或者說丢掉資訊以後的圖像跟原來的圖像是否具有相似的語義。當然，掩碼圖像模組化也是一樣的，丢掉一些patch後，把這些patch再重建起來。是以它們雖然一個更像判别，一個更像生成，但從本質上來說，它們都是預測退化的資訊是什麼的一種學習方式，是以我們不需要把這兩者嚴格地割裂開來看待。

為什麼我認為對比學習不可替代呢？掩碼圖像模組化的目标是重建像素，但是否真的需要把所有的像素都重建出來呢？好像并不需要。我認為隻需要重建到能夠認出這個圖像到底是什麼，或者說确定圖像中的大部分資訊被保留下來，就可以了。如果重建每一個像素的話，就容易出現過拟合的問題。那該如何去判斷重建是否達标了呢？對比學習就是一個很好的方法。它相當于把目标圖像放到一個大池子裡，如果它能找到自己，或者找到自己相應的變化，就可以認為其已經成功地重建出其中的大部分資訊。是以我覺得對比學習，至少它的核心思想即InfoNCE loss，是不會被替代的。這是我要補充的觀點，謝謝。

我有一個問題，因為我們主要在做圖像的生成（包括三維的生成），剛剛沈春華老師專門提到它和生成任務的相似性，是以我們如果從另一個角度去看掩碼圖像模組化的話，有沒有人考慮過從Inversion的角度去思考呢？因為在生成任務的過程中，一般來說我們需要先做PPI之類的Inversion，但我們的領域還沒有相應的工作使用缺失的地方去做Inversion。我不太清楚這兩者的co-relation是什麼樣的？

各位老師，我在這裡分享一下自己在自監督學習方面的經驗。針對圖像而言，MAE在ImageNet上确實挺成功的，畢竟因為ImageNet有1000類，每個類之間并不是非常Fine-Grained的。對于一些比較Fine-Grained的識别任務，無論掩碼的尺寸是大還是小，其結果并不是很好。比如，我們把圖像中的人的好多部分都遮蓋掉，重建的時候很難知道這個人是不是背着包，或者是不是戴着帽子。但如果隻是用在ImageNet中比較宏觀的物體上時，可能就很容易地被重構出來。雖然把重構的圖檔放大，可能有很多缺失和錯誤的資訊，但總體而言，車子還是那個車子，Airplane也還是那個Airplane。相反的，對于一些比較Fine-Grained的物體，這些Patch是完全被摧毀掉的，重構出來的也和原來的Image不一樣。這一點可能會使一些Fine-Grained的識别任務出現識别率不高的問題。

我補充一下關于下遊任務的讨論。首先，我剛才提到MAE和MIM本質都是Denoising AutoEncoder，其中移除Patch的操作就可以了解為在圖像中添加噪聲的過程。實際上，這種類型的噪聲并不是必須的。我們初步的實驗結果表示，添加High Level的噪聲，訓練出來的結果也還是不錯的，Fine Tuning後在ImageNet測試出的結果相差在0.5個百分點以内。MAE之是以采用移除Patch來添加噪聲隻不過是因為和ViT中通過Split生成Patch的操作結合得比較好，但這并不是必須的做法。此外，MIM的那篇論文還涉及一些卷積網絡的實驗，證明即使不用ViT這種結構，也能訓練出比較好的模型。Anyway，如果說扔掉Patch不是唯一的加噪聲的方式，那我們還可以探究添加不同種類的噪聲，可能最後訓出的模型也是差不多的。

關于虞老師剛剛提出的Inverse過程。Diffusion Model是生成式模型，Forward是訓練過程，而Inverse就是生成圖像的過程，但對于MAE或MIM，并沒有Inverse這個過程。目前為止我也沒有看到相關的論文去探讨MAE或MIM和生成式模型到底有什麼潛在的聯系？以及MAE或MIM該如何去Inverse進而得到一些好的結果？Diffusion Model最早的Paper中就有一個實驗，是将Diffusion Model訓練好後，将其中的UNet結構用來做一些下遊任務，也非常有效。我也更看好這種成果，有非常漂亮的數學模型在裡面。但現在的MAE等工作，大部分都是在跑實驗，并沒有解釋為什麼，我們也不知道其中學習到了什麼。

很高興來到RACV。我首先支援一下沈老師的觀點，我感覺MAE和MIM是一回事，隻是兩個不同的名字，但解決的問題可能是完全一模一樣的。這是我個人的一個觀點。然後我回應一下王井東老師剛才提到的“對比學習為什麼work“這樣一個問題。其中的一個核心觀點是對比學習可以學到Semantics。

此外，南京理工大學的楊健教授在這個方面做過研究。他在ICML 2021發表的工作從理論上證明了對比學習能夠明顯地提升分類任務的Discrimination，可以看出其至少對于分類問題是非常有效的。謝謝！

我剛才主要是想聽聽各位老師的一些觀點，我有一些想法和大家不太一樣。我覺得掩碼圖像模組化實際上在做重構的任務，剛才淩曦提到這種方法中圖像沒有跟其他的圖像做互動，但我覺得它的互動實際上是展現在模型參數上的。在NLP中，其中一種經典方法是學習 Contextualized Representation，這指的是一句話裡有若幹個單詞，同樣語義的單詞表示會更接近一些并且被group到一起，比如一些表示指代的詞it或者he。我認為掩碼圖像模組化也會起到相同的作用。在學到最後的表示層時，比較相近的語義會融合在一起。是以我認為其在某種程度上是可以學習到語義上的一些特征，比如同樣物體上面不同部位的語義特征。這也是我認為掩碼模組化圖像能在分類任務以及很多跟語義相關的一些問題上取得更好結果的一個原因。

此外，在圖像領域我覺得還是存在一些比較難解決的問題，比如物體尺度的問題。在Language裡，Token是沒有這個概念的，是以不需要考慮這個問題；但在視覺領域，處理的物體是有大有小的，而固定尺寸的掩碼可能會蓋住一些細粒度的物體，進而很難學習。我覺得在這方面還有很多比較細的工作可以繼續去做。

總體而言，很難說一個方向是否會替代另一個方向，兩個方向肯定都會往前繼續探索的。謝謝！

剛剛春華老師提到在ImageNet上做Finetuning的evaluation。這就牽扯到另外一個問題，應該怎麼去evaluate？之前有觀點認為Linear Probing是一個很重要的名額，後來又有觀點認為Finetuning也很重要，但很多人又發現方法差别很大的情況下，Finetuning之後可能沒什麼difference。此外，我們可能要多花一些時間再探讨一下Encoder究竟學到了什麼？大家還有什麼需要補充的嗎？

剛才聽興剛老師說：并不是模型越大，性能越好，然後我就在思考這樣一個問題：在自然語言進行中，大模型一般能起到一個很好的作用，但是在視覺裡面會不會也是這個樣子呢？或者說對于視覺而言，是不是适度大的模型比較好，模型過大之後反而不好了呢？我覺得自然語言處理的處理對象是人說出來的話，其中的語義性比較強一些，但視覺的很多資料的語義性不是那麼強，對于有些任務是信号的區域可能對其他任務就是噪聲。如果模型的規模變大以資料擴充為前提的話，是不是對于某些特定任務來講，意味着引入了更多的噪聲，進而影響模型完成該任務的性能？導緻最後訓練得到的大模型對任何任務都不是最優？

我回答一下毋老師剛才那個問題，因為跟我的工作有點相關。現在有一些觀點認為，人腦的容量比現在模型的容量要高很多，現在的很多模型都是不夠大的。我們需要得到一個像人腦一樣的Foundation Model，這就要求它有越大越好的特性，這樣才能夠有一個繼續往下發展的一個趨勢。當然大了之後呢我們還有很多辦法可以把它變小讓它能夠被應用，但這都是一些工程問題，而不是一個科學的問題。從科學上來講，可能就是希望要不斷地擴充模型，吃更多的資料，變得更好；但從應用的角度來講，我們可能并不需要用到。

然後，關于MIM呢，我覺得還需要更多對它進行了解，甚至可以做得更大膽一點，就像黃高老師說的這個多模态，我們是否能夠做多模态的MIM呢？現在隻做圖像的話，我覺得可能還不夠，可以把更多的模态引入，然後一起去做這個掩碼圖像模組化。

我接着興剛的話說。我認為視覺和語言是不一樣的東西，我們應該區分來看待。對于文本來說，模型确實越大越好，但視覺上并不一定是這樣。因為視覺處理的信号和文本信号有本質上的差別。文本信号是人類創造出來存儲知識和表達知識的，他一定要注重高效性，是以文本的資訊密度非常大；而視覺信号是人類從傳感器中獲得的，注重真實性，是以它資訊密度比較低。是以，對于這兩種信号，我們所使用的學習方法和模型必然是很不一樣的。在語言任務上，模型越大越好是因為語言多多少少有種死記硬背的感覺，記住那麼多語料，就能進行泛化；但視覺信号對真實世界的采樣密度還是非常低的，無法通過一些死記硬背或者預訓練的方式去達到非常高的通用程度。是以說在當下，對于視覺任務來說，比起做大模型，我們更多地還要去做一些其他的事情，比如對視覺信号進行高效地抽取，創造一個良好的環境使得視覺上的scaling law能夠顯現出來。現在視覺領域暫時的情況是，把遷移學習做好、把各類的任務分開來做好，會更有用一些。或許在未來的某一天，當我們把視覺的基礎建設提上來後，達到了和文本同一起跑線，那麼scaling law可能就會出現了。這是我對毋老師的問題的回答。謝謝！

雖然有點跑題了，但我還是想回應一下剛才兩個老師說的這個問題。我在網上看到Tesla的Andrej Karpathy（現在已離職）說過，10年前視覺、語音和自然語言是分離的，圖像也是分為Static和Video，同時在Static圖像裡做分割、分類和檢測也是使用不同的方法，但這幾年的趨勢是AI Consolidation。我們可以看到BERT、Transformer等Language裡的模型在Vision裡取得很好的成果，也看到更多的證據表明同一個模型也可以做不同的任務。是以，我覺得我們可能需要一個可以學習到一些更本質東西的大模型，需要學到一些非常Fundamental的東西。這和我們今天讨論的MIM到底該學什麼東西是相似的？

謝謝夏老師把我的問題拉回來。我們想探讨MIM學到什麼？現在這個方案在這個目的上能學到什麼？

首先我想回應一下淩曦，目前并沒有明顯的證據表明MIM中使用Pixel作為監督資訊會出現過拟合的現象。根據MAE的Paper裡彙報的實驗，即使訓練周期非常長（達到1600個Epoch），其在小數量的資料集上也并沒有表現出過拟合的現象，其性能還是會持續地增長。此外，我認為掩碼圖像模組化的預訓練任務是非常豐富的，豐富到在小資料集上也可以定義很多任務讓網絡去學習。

還有一個很重要的實驗和毋老師的問題相關，MAE嘗試過很大的模型，比如ViT Huge，但用在ImageNet的100萬張圖檔上也沒有出現過拟合的問題。相比之下，對比學習即使用在ViT Large模型上也會出現非常嚴重的過拟合現象。此外，對于之前的一些對比學習架構，它們都很難進行ViT Large模型的訓練。是以，我認為掩碼圖像模組化定義了更加廣闊的問題空間。

我也有一些跟武老師相似的一些想法，我覺得對比學習、Masked Image Modeling和最近正常火的DalleV2這種的Full Image Generation，這三者都是Special的自監督任務。什麼意思呢？對比學習相當于一個Classification，輸出的number of bits為；對于Masked Image Modeling，輸出的number of bits為恢複多少的像素，比如在MAE中大概是75%的像素個數；而對于DalleV2這種的Full Image Generation的話，不僅需要恢複圖像的每一個像素，每個像素恢複的精度也需要特别高。我認為我們希望自監督的任務越來越難，資訊恢複得越來越多，這樣學到的Information才越來越多。此外，從實驗效果來看，DalleV2的結果非常驚豔，随便寫一句話，它都能生成非常符合這個語意的圖像。這讓我覺得DalleV2的Encoder學習到的資訊量是更大的。

然後從另外一個角度來說呢，為什麼大家認為對比學習很好？是因為它的Linear Probing很強，甚至對于DINO，它用在Nearest Neighbor Classifier也很強，現在能達到70到80左右。

此外，我們還需要關注視覺标準到底有多麼容易去Readout。對于對比學習，它是非常容易Readout的，因為預訓練任務和下遊任務是一樣的，都是在做Classification；對于MAE，其并沒有做InfoNCE，Paper中的Linear probing效果不好；對于DalleV2這類的任務，雖然Paper中沒有提到Classification的效果，但我估計效果并不好。總的來說，我認為視覺表征如何“easy to readout to your downstream task”可能是未來可能比較多關注的問題。

下面我們看一下語言能為視覺基礎模型帶來什麼，視覺基礎模型是不是一定需要語言？

我先接上一個問題說一下，然後再說一下王老師所說問題。我也覺得對比學習更像是一種判别性的學習，然後MIM更像一種生成式的學習，這個可能跟前面的老師基本上是一樣的，我想說就是對于MIM這種偏生成式的學習，我覺得它可以學到的知識和能力其實是更廣泛的。對比學習可能更偏向判别性，學到的知識區分能力較強，但可能泛化到其他任務時，他的能力可能相對來說就會弱一些。還有關于MIM，我覺得它比較好一點可能是我們不一定非得去重構像素，去做像素級的重構，其實我們可以去做不同的粒度的重構，而且非像素的特征其實也可以去重構，比如說我們在做傳統CV方法的時候，那時候有很多的特征是根據先驗人工設計出來的，也可以去試着去重構這些特征，這樣的話其實它會學到一些相應的先驗知識，是以我個人認為MIM可能也會更靈活一些。

然後關于語言這個問題，其實我也做過一些簡單的思考，比較像剛才王興剛老師也提到的混合多模态的模型，比如利用語言時，把一句話中的一些詞摳掉，然後換成一些圖像區域的表示，做這種context的學習，反過來，可以把一幅圖的一些區域扣掉，換成其對應的物體的語言的表示，這樣将image embedding和word embedding混合在一起去學，會更加促進視覺與語言兩種表示空間的連接配接，這就是我比較簡單的一些看法。謝謝。

我再補充一點，其實第一個問題，我可能問得不是很好，其實應該說我們解決這個對比學習的任務和解決掩碼圖像的任務能給我們帶來什麼，而不是這個任務本身，

我覺得語言對于視覺基礎模型是非常重要的，因為視覺的了解還是要跟語義聯系起來，我們希望不光是做一些low level的任務，更要了解圖像裡面有什麼東西，然後這個東西它有什麼部件，這個物體跟其他物體之間怎麼去互動。從這個任務目的來說，視覺資料的開發是遠遠滞後于自然語言領域的。在自然語言了解領域，大家可以想象現在訓練語言大模型的資料，對語言的覆寫是接近完備的，用它訓練完大模型之後，可以覆寫語言裡面的各種問題。然而視覺方面的資料還遠遠達不到，把web上所有的圖像資料都抓下來，仍然還有很多問題，無法覆寫視覺領域的所有問題。在視覺資料有限的情況下，語言是可以幫助我們去做語義上的擴充，這非常重要。從我們最近的一些視覺基礎模型上的工作來看，訓練資料實際上還是比較有限的，但是仍然能看到它有一定的泛化能力。我覺得語言帶過來的一些知識，與視覺資訊是相關聯的，視覺的表示跟語言結合後，随着語言的擴充，視覺的表示也會擴充自己的表征能力。

我說一下我的觀點，就是視覺基礎模型一定是需要語言的，未來一定是視覺跟語言相融合的一個态勢，比如說過了幾年以後，業界最好的模型中，可能就不存在純粹的視覺基礎模型，最好的模型都是視覺和語言融合的。順便也回應一下這個問題：圖文弱監督和視覺自監督兩個是不是都需要？我的觀點是非常明确，兩個都需要。因為圖文弱監督就像剛才黃高老師說的，它是包含有一種互監督的概念，可以幫助我們去克服純視覺預訓練存在的問題，即你很難抽出有效的語義資訊。一旦有了文本的輔助，這件事情就變得好做很多。那麼自監督為什麼也需要呢？是因為自監督它本身更加适應視覺任務，對圖像的性質捕捉得更好。進一步說，這兩個方法不僅都需要，而且我們在研究和落地的過程中，發現它們是有先後順序的：先做圖文弱監督的預訓練，然後以它作為基礎模型，再做視覺預訓練，相當于把視覺預訓練作為一個圖文預訓練的fine-tuning。更明确地說，我們現在的方法分為三步走：先用圖文弱監督去做預訓練，再用視覺自監督去做二次預訓練，最後才去下遊任務上做微調。我們最近在ECCV發表了一個叫做MVP文章，也确定了這樣做是有益的，包括對于檢測分割這種下遊任務，都有明顯的性能提升。

關于各種自監督弱監督方法，我個人的看法就是語言涵蓋了大量的語義資訊，但是語言它不可能是無限精确地描述圖檔的資訊。那麼網際網路上的圖檔和文字描述，文字以泛泛描述為主，精确描述很少。是以我覺得我們依賴圖文弱監督的話，主要是了解大概上的事情，那麼對這個MAE和MIM這種方法，剛剛虞老師也談到了，我個人覺得它是在隐式地思考圖檔裡的幾何資訊。但很可惜我覺得現有的MAE的方式，它的loss是一個MSE loss，這種loss其實它并不能夠發現看不見的部分， MIM mse這種loss對SSL來說是不利的，是以我也在想這幾種方式，他們其實是互補的。如果我們關心的是物體的low level的幾何，特别是我們做智能，我們要感興趣怎麼跟它接觸，那麼幾何是很重要的，在這個問題上可能語義并沒有什麼作用。我們做弱監督，其實真的缺乏能用的視覺資料。是以說我們變換一個視角，我們可以reconstruct它，但是目前的弱監督，很難去真正反映其中的幾何，那麼目前的這個mae的這種監督也隻能說是在這種先天條件缺失的情況下，去給他找一個方式去學看不見的地方是什麼,我感覺對于資料模态的類型的補充和 loss方式,還有很多可以探讨的地方。

在圖像檢索和視訊了解中，我們經常提到結構化、語義化。這就是說，計算機視覺領域主要解決兩個問題：（一）語義化，圖檔中含有什麼實體，它的語義概念是什麼？例如：圖中有一架飛機，一個人。（二）結構化，實體間的關系是什麼？例如: 人從飛機走下舷梯。當實體和關系都描述清楚了，我們就了解圖檔包含的語義是乘客下飛機，而不是上飛機，坐飛機，駕駛飛機或站在拖拉機旁。計算機視覺的根本目标是視覺資訊的結構化和語義化，對應到自然語言就是命名實體、實體關系（空間關系，互動關系）。對于視訊，結構化還要考慮持續時間的上下文關系。

關于視覺基礎模型學習方法，今天大家探讨了很多。對比學習（CL）是通過比較兩個對象是否相似來解決區分力問題（實體識别）；大量标注樣本對模型訓練肯定是很有幫助的。但實際上，我們在做模型訓練時，經常缺少大量的标注樣本，是以就産生了解決樣本自标注，自監督學習問題的掩碼學習方法（MAE），即通過掩碼抹掉子圖，然後由自編碼器填空生成缺失的已知部分（實體關系）來實作學習的一種方式。

我記得悟道大模型的研制者唐傑老師，他在一篇論文的标題中提到：“所有的一切都是生成“。我當時在想，難道不是所有的一切是分類？但他卻說一切都是生成，生成是識别的基礎，其實就是類似于掩碼學習，生成的思想如出一轍。就是你缺少一個東西，你去生成它的時候（原始照片本來就有，挖掉一塊區域，通過生成把它填充好），在反複的生成過程中就學習到了這個東西。現實中，我們訓練樣本實在是太缺乏了，基于MAE的生成學習為我們提供了一種新的學習方式。

我就說這些。另外我提一個問題，去年RACV2021，我們讨論過視覺大模型。正好這次華為盤古視覺大模型的謝曦淩來了，百度視覺的專家王井東也在，能否介紹一下您們視覺大模型的最新進展、經驗和問題？

這個問題很好，那麼第一個就是其實興剛提到的那個大模型，不過是個150億參數，我們前段時間釋出了一個更大的、170億參數多任務大模型。

我簡單說一下，非常感謝王濤老師給我這樣一個說一下自己落地工作的機會。其實我剛才回答毋老師問題的時候已經講過了：視覺跟文本是不一樣的。就語言來說，現在我們收集到語料庫已經是現實世界的一個非常好的采樣，它覆寫的範圍足夠大，于是我們用預訓練去死記硬背，甚至過拟合語料庫，依然能夠取得明顯的收益。但是，視覺還遠遠達不到這個程度。在落地的過程當中，如果我們拿一個在通用資料集上訓練好的模型直接用于實際業務，比如說你把ImageNet訓練好的模型用到醫療影像上去、用到礦井圖像當中去、用到工業質檢的電路闆圖像上面去，效果不一定會好。這是因為視覺的預訓練資料集沒有覆寫這麼多複雜的場景，那麼過拟合的副作用就顯現出來。這是大模型在視覺上沒有全面鋪開的第一個原因。

第二個原因其實也是一個非常現實的原因：視覺大模型太慢了。文本大模型，即使有千億參數，它推理一句話還是很快的。但是視覺大模型，如果做到十幾億的參數量，那麼在一張圖檔上做檢測，可能要20秒鐘的時間。一張圖檔20秒，誰能忍受？那不可能的。是以說我們在實際業務當中必須把這個東西給調整過來，比如說有一個預訓練大模型作為基礎，在微調的過程中，通過蒸餾剪枝或者說别的方法，你把它弄成一個稍微小一點的業務上能用的模型，用到業務上去。而且我們發現在這個過程當中，微調的收益比起模型規模的收益要大得多。這也是我前面說過的，因為視覺信号太複雜了，你沒有辦法通過預訓練去覆寫所有的資料分布。是以在視覺領域做落地的思路，跟語言肯定不一樣。我們現在做視覺大模型的思路也不是像在文本那樣，一定要往大的去走；在視覺上我們就是做到10億左右參數，基本上就可以了，不用再做大了，而是把精力放在模型的下遊微調上。這是我對于我們業務的一些解釋，謝謝。

我就第五個問題談一談我自己的觀點。語言能給視覺模型帶來什麼，我覺得大家都比較認可語言是有幫助的，但現在我們關注更多的是怎麼帶來或者怎麼做性能提升。我在想我們是不是應該思考現在語言的使用方式是不是合理，或者有沒有更合理更優的方式。

大模型的發展目前有四個次元，第一個是空間的次元，空間的次元主要展現在粒度上，由圖檔分類這樣的粗粒度向中層粒度（object level）及細粒度（pixel level）不斷深入，第二個是時間上的次元，由靜态圖像向動态視訊方向擴充，第三個是模态的次元，由RGB模态、向紅外、深度、語言等多模态發展。第四個是多任務的次元，大模型需要向下遊不同的任務擴充，進而實作一網多能，一網通吃。

目前語言和圖像融合的大模型，如Clip對視覺了解的發展有很好的促進，語言的描述相比圖像來說，實際上是非常精煉的，通常是人類的對圖像的一個總結，可能眼前這個圖什麼都有，但是你通過語言描述後，人會對圖像的注意力更精準，了解更到位。其實語言它還有一些明确的描述，它其實是表征了一些結構資訊，很多是知識性的資訊，這些知識在圖譜中又有上下文的關聯關系，這些其實都是對視覺的有指導意義，通過知識圖譜的方式來指導視覺模型，那麼會使得我們會對視覺了解的更充分，在很多任務上面都提升明顯。

是以說我覺得其實語言為視覺帶來了很多，但是另外一個問題呢，我其實也不太了解，就是NLP方面是不是需要視覺的一些知識和模型？相比圖像的粒度來說，語言描述的粒度較粗，而且圖像本身變化是多種多樣的，它的空間表征更更大一些，有些其實超出了語言描述的内容，是以說這樣翻過來，為了對語言的了解更深刻，NLP究竟會不會用視覺大模型，我想抛出這個問題。

各位老師上午好，剛才聽了各位老師的報告和發言，很受啟發，我談一下對視覺基礎模型的一些了解。過去這兩年我也一直從事視覺基礎模型方向的研究，在國内很多地方也彙報了我們課題組在這方面的一些工作。我們可以簡單回顧一下近10年來這一波的計算機視覺發展曆程，從2012年到2022這10年其實可以分兩個階段：從2012年到2017年，計算機視覺應該說能夠成功其實也是受到語言的啟發，大家可以看一下深度學習最開始成功的其實并不是在圖像識别任務上，那個時候我在新加坡工作，深度學習在語音識别任務上成功了很久，在2012年才在視覺任務開始成功，是以說那個時間節點上其實也多少受到一些語言的啟發。這一波從2017年到2022，我們都看清楚，實際上計算機視覺是在跟着NLP在走，如果說早些年我們可以比較驕傲地說計算機視覺推動了人工智能的發展，現在很多時候我們沒有辦法。剛才盧老師講的很對，就我們把模型用在圖像視訊上，根本解釋不清楚為什麼需要Transformer這樣的東西。是以我的觀點就是說語言跟視覺一個本質的差別，那就算語言是有非常清晰的文法，而視覺是比較缺失的。今天上午讨論了很多對比學習，我感覺我們更需要關注文法這種東西在視覺資料裡面如何挖掘，這是一個很難的問題。因為現在視覺沒有文法，而語言是有很強的文法，十幾年前美國一個知名教授跟我講一句話，我至今印象非常深刻。他講的一個觀點就是computer vision is language。他說計算機視覺也是一門語言，語言的本質就是文法，視覺現在沒有文法，是以我希望或者說各位同行一起就在這個方向能夠研究，一起用文法來指導視覺基礎模型的建構，謝謝。

這個問題很有意思。語言有文法，那麼圖像或者識别有沒有文法呢？因為語言是我們自己發明創造的，是以我們認為它有文法；但是圖像雖然不是人創造的，可能是自然界某種規律創造的，是不是也有自然界的文法呢？

因為我對計算機視覺不是很熟悉，之前有做過一點，但沒有繼續做了，後來主要是做機器學習和人工智能理論。是以呢，我就說一下第三、第五這兩點吧。機器學習早年的時候也曾經有一個夢想，這個夢想和第三個問題差不多是一樣的。當時是想這種學習任務會有一個統一的學習算法。但這是不可能的，因為95年的時候就有人證明了沒有免費午餐定理，97年這個觀點就進了教科書，從此機器學習就不再夢想去建構一個統一的機器學習模型了。如果說在一些條件下這種模型是可能的，那麼就意味着這些任務要麼是存在投影（同态）關系，要麼是可以互相重構的。如果不是這種關系的話，那我認為這是一個很困難的事情。從機器學習上來說，對于不同的學習任務，利用沒有免費午餐定理，每種任務都應存在更适合的算法。當然這是我的了解，也不一定完全正确，萬一日後證明了在機器視覺領域各類任務之間居然存在同構或同态關系，那确實會是很大的成就。但是，如果證明不了這件事情，那麼這些任務本質上就是不同的應用。這就是我的觀點，從機器學習的角度對第三個問題進行了一點補充。

接着說一下第五個問題。語言和視覺的實作是非常不一樣的。從符号的角度來說，視覺屬于相似符号，語言屬于象征符号，它們是完全不同的。雖然像相似符号之間會存在一些互相關系，比如說照相和漫畫之間可以存在映射的關系；但是不同的符号之間，比如相似符号到象征符号，這種映射是極其複雜的。對語言來講，從漢語到漢語是可以同構的，英語到漢語不見得是同構，但可以說是近似同構。因為如果不近似同構的話，翻譯就是不可能的，是以可以說是近似同構。但是對視覺而言，我們計算機的圖像到語言是同構嗎？從我的觀點上來說，可能是差得很遠，從自然符号到相似符号就差很遠了，再從相似符号到我們所謂的象征符号，那就更加天差地别。實際上我們象征符号的機關是有限的，已經有人證明實際上每種語言的常用詞也就5萬個左右。對于每個人來說就更少了，與圖像的數量有很顯著的差異。

于老師講的挺底層和哲學，我也來談一點觀點。實際上，語言和視覺在逐漸的統一，從NLP的角度上來講，語言可以向量化，進而轉變成一個傳統的統計學習的問題；而圖像可以Token化，也可以轉換成NLP處理範式的問題，這兩者當中的差距是越來越小的。視覺和語言之間也有很多的互相受益的地方。我特别同意謝老師講的觀點，在自然語言方面我們有比較全面的資料，但直到今天，我們還是很缺乏大規模多任務的視覺資料。現在NLP裡面有像SuperBLUE、Big-Bench等多任務benchmarks，但是視覺領域像ImageNet這種任務太簡單了，哪怕加上segmentation和detection任務，總體來說還是單一的。如果我們能建構一個大規模資料集，增加更加豐富的任務例如視覺推理、問答、細粒度的CV任務如人臉識别、ReID、OCR等等，将來有一天先把一個超大規模的多任務圖像視覺資料集構造和定義出來，再去研究面向視覺的大模型，可能會更加更加有價值和有意義。

從我們實驗室的一些經驗來講，語言對于我們視覺的了解是很有大幫助的。比如說對于跨模态的多模态文檔圖像了解。在文檔圖像了解中，中文或英文的資料有很多，但是對于小語種而言，不管是無标注的資料還是有标注的資料都很難擷取。如果把視覺模型和語言模型解耦出的訓練，利用某種方式再把它們耦合在一起時會有很好的效果。比如說利用跨幾十種語言的大規模語言模型，把它遷移到視覺裡面，就可以幫助我們解決一些few-shot或者zero-shot場景下文檔圖像的分類、識别、資訊抽取等視覺上的問題。我們今年在ACL2022年就有一篇文章在做這個工作，我們發現即使是zero-shot情況下，如果有語言知識幫助我們模組化，是可以更好的去解決視覺問題的。

從這個意義上來講，我很看好将來視覺和語言可以走到一起。剛才繼文老師提到，回顧過去10年AI領域的發展，前5年可能是CV領域在引領主流，從17年到現在是以Transformer為代表的這種NLP領域中的方法在引領主流。展望未來5年或10年，這兩個領域可能會走得越來越近，我們也希望這兩個領域中還能夠産生讓人眼前一亮的或者具有革命性的一些工作，比如說像MAE，還有Hinton教授去年提出的Pix2Seq，今年也出了Pix2Seq v2，把視覺檢測、執行個體分割、關鍵點檢測、圖像描述等任務統一到了一個基于Transformer的架構，方法簡潔，效果驚豔。我覺得這些方法還是能夠給我們帶來一些新的啟發。

我剛剛聽了金老師和于老師的發言，我覺得很有啟發，忍不住想要問張磊老師和井東老師一個問題。其實前面已經提到，現在已經出現了很多根據語言做圖像生成的工作，至少從視覺來看，這個任務已經做的非常的好了。那麼根據語言生成的大規模的圖像，對于視覺基礎模型到底有沒有幫助呢？對這個問題，我的看法是，有幫助或沒有幫助都很重要。假如說沒有幫助，即這些圖像對于機器視覺不會有任何幫助，這表明我們已經cover了所有的information，不可能再生成additional information了，是以即使這個問題的答案是no，也是很有意義的。如果答案是yes，也就是有幫助的話，那麼舉例來說，如果我能夠生成在原始圖像裡面不可能存在的，比如剛才講到的熊貓在沙灘上一類的本不可能在你的資料裡産生的圖像，但也許有一天真的會出現這樣的資料，這種明顯是基于語言生成的高品質圖像，對視覺基礎模型會不會帶來幫助呢？我很想聽聽兩位的觀點。

虞老師的問題是一個比較新穎的角度。在我看來，現在做的生成模型，并不是在解決representation learning的問題，主要是把大量圖像映射到空間裡，對它的分布做采樣的過程。很少用生成模型這種方式去做表示學習，表示學習還是用弱監督或者自監督的方法比較多。我認為從生成的角度來說，某種程度上仍然是一個類似于重構的任務。當它重構了資料之後，可以做更好的采樣。我覺得至少目前這個研究領域裡還不是在探讨使用生成模型去解表示學習的問題，是以我對這個問題還沒有一個特别好的答案。

我來補充一點點。我沒記錯的話，DALL·E 2中使用的是CLIP模型，它的表征是從CLIP出來的。DALL·E 2可以認為在語義空間中做diffusion sampling，然後使用diffusion decoder完成圖像的生成。其實這個地方就是剛剛提到的，怎麼樣才能生成的漂亮，怎麼能把隐含空間裡面的表征變成真實的東西。像Google做的Imagen，也是融合了這些過程的。我覺得在那個隐含空間裡面sampling還是需要一個好的表征空間的。

尤其是語言特征空間，需要有一個好的表示。DALL·E 2實際上也是利用了CLIP來幫它解決問題，而不是它去幫CLIP解決問題。我認為在DALL·E 2中沒有加入增強CLIP表征能力的地方。因為generation的問題比表征學習更難，是以它實際上是在借助于表征學習的一些工作的進展來進一步解決問題，而不是反過來幫助解決表征學習的問題，當然後者也是一個很好的方向。

其實DALL·E 1生成的東西也不錯，隻是quality沒那麼高。主要的差異在diffusion decoder，使得DALL·E 2的quality非常高，也就是生成地更漂亮，單從語義的角度來說，差異并沒有那麼顯著。

我也想提一個問題，這個問題可能有一定的争論。今天上午我們這個專題講的是大模型，大模型是資料驅動的機器學習方式。現在，除了各大公司以外，很多學校也在做，是個很流行的研究方向。我擔心的是，這樣下去是不是會對我們計算機視覺的研究産生一些負面的影響呢？

這話是什麼意思呢？我們在做大模型研究的時候，基本上都把資料擷取這個過程給忽略掉了。我們知道計算機視覺是應該包含資料擷取、資料選擇等環節的。生物也好人也好，像很久之前生态心理學所主張的那樣，視覺系統是要把感覺、認知及其決策這些功能融合到一起去的。但現在如果使這些功能處于一種分離狀态的話，這是不是會對我們這個領域産生影響？

當然，從另外一個角度來看，我們也看到這種資料驅動的方式在一些視覺任務中能夠發揮作用，能夠提升系統在一些特定問題上的視覺認知品質。但我還想問一下，從本質上講，除了刷榜之外，大模型能解決哪些我們以前解決不了的問題，或者說它在哪些方面可能會引起計算機視覺研究方法論上的突破呢？

正好我們也在做大模型，是以我就先回答一下查老師的問題。其實大模型在我自己看來，在預訓練算法部分，跟小模型其實沒有太大差別，它更多是一個工程問題，是以業界也很少有學者針對大模型去專門發表論文。那麼大模型它能帶來什麼改變呢？從落地上來講，大模型帶來的規範，會讓我們落地會更快更便捷。比如說，當我們有一個基礎模型以後，就可以比較友善、規範地把它遷移到不同的下遊場景裡面去；而且由于預訓練的原因，在小樣本任務上，它的能力确實是有所提升的，因為它share了一些公共的feature。這是我們在大模型上能夠得到的一個比較明确的好處。

關于前面虞老師提到的，生成圖像輔助識别的問題，剛才張磊老師說沒有這方面經驗，但正好我有這方面的一個失敗的經驗。我們曾經用生成圖像嘗試去提升識别精度，但是最終失敗了。背景是這樣的。我們知道在圖像分類裡有一個工作叫mixup，它的想法非常簡單：假如有兩張圖像，圖像A是狗，圖像B是貓，我們把A的像素乘以0.8，B的像素乘以0.2，兩者相加創造出一個重疊的圖像，然後強行讓分類器得出這張圖像0.8機率是狗、0.2機率是貓的結論。這種做法可以提升分類精度。我們就進一步想，這樣做是不是太弱了，能不能用圖像生成技術來改進這件事情。我們知道GAN inversion出來以後，很多工作都會展示一個被稱為image warping的實驗。比如說一張圖像是貓，一張圖像是狗，warping就可以創造一個序列，使得貓漸變成狗，相信大家也有都有見過這樣的圖檔。具體做法，是把兩張圖像分别逆映射到特征空間，在特征空間中插值，然後再映射回來，就可以做到這樣漸變的效果。于是我就想，能不能用它來替代mixup呢？這是一個很自然的想法，但它最終失敗了，而且是很徹底的失敗，沒有任何提升性能的迹象。這是為什麼呢？後來，我們發現一個很明确的點。在warping時，我們一般都假設它在語義空間上是連續變化的，但是實際上不是這樣。我再舉個例子，比如說有一隻頭朝左的狗和一隻頭朝右的狗，我們理想中的warping，應該是這個狗逐漸地從左邊轉到右邊，但實際産生的效果是，左邊的狗頭逐漸消失，而右邊逐漸長出一個狗頭來。這種warping效果，跟我們想要的就不一樣，無法幫助我們在圖像分類或者識别這個任務上做得更好。

是以我可以回答剛才的問題。總結我在這方面的失敗經驗就是，目前的生成模型還沒有真正根據語義去生成，而是根據統計學習直接去生成的，這就導緻它生成出來東西很不确定，可能還沒有辦法很穩定地去幫助分類或識别的任務。但是，在某些情況下，生成資料還是有用的。比如說我生成了一些熊貓在池子裡遊泳的圖檔，而我下遊要做的檢測任務，目标恰好就是熊貓在池子裡遊泳。這個時候你沒有真實的資料，那麼生成一些資料總比沒有要強。但是在一般的情況下，因為生成模型對語義的把握還沒有那麼強，它就很難輔助識别任務。這是我的失敗的經驗和教訓。

這個我來說一下，我覺得前面講得很有道理，就是說在語義中是沒有考慮到三維的，這種情況下，是會存在geometric constraints的。

我快速回應一下。我們确實沒有考慮三維資訊。但就算考慮了，這個過程也是不可控的。

我是覺得現在深度學習這種資料驅動基本上沒有考慮到三維，把圖像恢複出來，我們都想象不到背後在做什麼，我認為這還是一個pattern的重制過程。因為我們的算法裡面沒有為三維重建專門設計任何東西，雖然我們不能排除它沒有學，但我覺得确實是沒有看到這個東西。現在的圖文相關的、尤其是大規模的工作，基本上就是分類。

就像淩曦剛才講，對于大模型而言，90%都是工程問題，因為要把這麼多GPU一起去訓練，然後把資料加載保證不出問題，它基本上就可以看做是一個工程問題了。我在微軟也是在做這個方向，這個方向确實有大量的工程。不過确實可以看到它的結果在逐漸地變好，資料量不斷增多，模型不斷變大，效果也在不斷變好。是以我是覺得這個趨勢是沒有問題的，但它的工程會越來越複雜，它就變得不太像是一個典型的研究方式得到的成果了。

我也想補充一下，我是北京大學王鶴。我覺得像CLIP這種大的圖文的弱監督模型，也是有很多問題的。我們會發現在網際網路上的一些語言中，會經常性的出現資訊丢失，或者是大家不在意的一些資訊。對于這些我們不在意的東西，通過Visual language pretraining就學不到，比如說有一張大合影，其實很難注意到這個 image裡面有多少個人。像這些資訊不一定有，即使有，模型也學不到，是以我們現在用clip的pretrain model的時候，如果想把它knowledge distill 出來，我們會發現比較common的一些東西是可以distill出來的，但一些detail的東西則distill不出來。這個時候再聯想到DALL·E模型，因為我們能夠使用語言來控制它的生成，那麼我們給出一些特殊的語句，它也能夠給我們一些想要的輸出，以此形成這樣的image和text的pair。

但由此會出現兩個困擾着我的問題。第一個問題是就連我們這些大學的researcher都沒有辦法access到這些非常好的image生成模型。即使申請獲批了，可能一天也就生成10張圖檔左右，不可能允許進行大規模的生成，之後再用來做訓練。今天咱們有很多國内公司的代表，能不能咱們中國搞一個open access的模型讓我們researcher也來玩一玩生成，我覺得這個能很快boost相關方面的一些進展。第二個問題就是我們發現在他們的training data裡有很多missing area。我個人本身就比較喜歡關注的是圖像裡面part的結構，比如說拿clip去做表征，它能不能知道椅子的背上有幾條橫幅這樣的資訊？我們發現這些模型根本不知道，更精細的來講，比如說一個遙控器上哪個按鈕是關機鍵，哪個按鈕是調聲音的，這些事情是完全沒有任何資訊的，因為這些東西本身在網際網路上就是處于一個資訊缺失的狀态。是以我們也在想是不是對某種特殊task，我們也需要用一些data來distill或者是enrich vision和language model，build一個小範圍的specific的vision-language的pair。我覺得這些都是可能推動vision language model在具體task應用上的一些方向。

各位老師好，我是來自于合合資訊的丁凱，關于視覺大模型，我這邊想提兩個問題，請教一下各位老師。第一個問題是關于視覺和語言融合的，目前大家提到的視覺跟語言的融合中的語言一般來說都是自然語言，同時語言還有一種表述的方式，也就是經過人類這麼多年抽象之後形成的知識。在業界中也有很多知識的表示方式，比如知識圖譜等等，那麼這些知識如何和我們的視覺模型融合起來，更好的去指導我們模型的訓練，并且去避免一些人類的常識問題呢？舉個例子，之前在NLP領域裡面比較火熱的大模型GPT-3，它生成出來的有些語言也會缺乏甚至違背常識。是以視覺大模型與知識的融合這個方向有沒有可能是未來的一個發展方向呢？

第二個問題，就是剛剛查老師提到一點，大模型的發展會不會有什麼負面作用？現在的大模型有幾個特點：資料量非常大，參數非常多，訓練成本非常高，變成了隻有一些大的公司或者機構才能做的工作，像一般的科研工作者隻能去用這個模型，這樣的好處是大幅度降低了下遊任務的難度和門檻，同時也會出現同質化的情況。即大家都是用同一個預訓練模型，然後再去做下遊任務，做到後面會發現這個任務的瓶頸就是這個預訓練模型了，導緻大家做出來的結果都差不多，缺乏新的東西出來。是以我再想，未來在大模型蓬勃發展的同時，有沒有一個可能得方向就是讓我們的視覺大模型具備資料選擇能力的，在大量資料中可以去選擇有價值的資料。這樣好處是通過對資料的選擇，同時持續的對新資料不斷地進行疊代訓練，那是否可能會在一些場景裡面産生非常多樣性的大模型或者預訓練模型。例如，在同一個場景裡面，因為每個大模型預訓練任務的資料選擇的方式不同，疊代的資料不同，使得在具體任務上的模型是具有多樣性的，進而避免出現一個大模型統一天下的情況。這就是我的兩個問題，謝謝各位。

謝謝丁凱老師，下面我們看看除了丁凱老師的問題，我們看看未來1~2年什麼樣的一個方向是值得我們往下做的。

我想首先回應一下剛才查老師的問題，就是大模型到底對我們有什麼幫助，是否有什麼負面的影響。這實際上是一個視覺研究中的路線之争的問題。肯定有人擁抱它，有人懷疑它，這都是正常的。我個人的觀點是非常支援它的。我這裡跟各位老師彙報一下，大概就是去年這個時候，北京智源人工智能研究院黃鐵軍老師帶着我們一起，探索視覺大模型的建構，就是希望将來有一天視覺基礎模型能夠像今天的電力一樣服務于千家萬戶。我們知道在資訊域有一個鍊條，有基礎軟體，工業軟體，那麼将來視覺模型可能會類似于我們手機的作業系統。國家也特别支援，今年的2030新一代人工智能重大研究計劃裡面就支援了這個方向，并且希望将來能夠開放共享，讓大家去用，這還是非常有意義的。第二點查老師剛才已經講了，就是目前還沒有看到有大模型和沒有大模型的本質變化。我認為确實也是這樣的，現在除了在精度上有一些幫助之外在其他方面沒有看到，但是不排除未來通過我們的努力，比如說5年或8年後，可能會出現一種解釋性比較強、通用性比較好的基礎模型。所謂通用性主要有兩點，第一點是對視覺資料的通用性，不管是對可見光、紅外、射頻、雷達等等資料都有通用性；第二個是任務的通用性，包括檢測、分割、識别等，所有任務都有通用性。如果真的能做出這個東西，我們傳統的計算機視覺方法是做不了的。

大家好，我是清華大學的弋力。聽到各位老師讨論之後有很多自己的想法和思考，可能也跟最後的這些問題有一些挂鈎。我本身是做三維視覺的，三維點雲的資料量是非常有限的，根本考慮不到大模型這個事情。因為很多時候我們都是要三維借助于二維的大模型，或者是借助語言的大模型去做一些事情。有的時候我也在想到底我們能從這個大模型中benefit到什麼。我覺得今天講的 language對我而言其實還挺有啟發的，因為我覺得其實language對于這個場景的描述其實是包含了很多元度的東西，可能現階段大模型更多的還是在研究有什麼東西或者是什麼東西的層面。也就是 language裡面的concept可能影響我們對圖檔中concept的形成，但其實language裡也會有很多關于為什麼或者怎麼樣的一些描述，這是和認知推理相關的東西。那麼我們可以思考一下，借助 language的資訊去從 visual的feature中提取出一些有助于reasoning相關的一些特征，或者來幫助我們結合一些spatial的資訊來更好的去預測物體的變化等等。這些可能可以真正能服務到下遊的一些機器人視覺或者是機器人互動的一些層面上，對這個問題我還是非常感興趣的。

再有一個就是黃高老師提到的多模态，盧老師剛剛也說要做既有3D又有2D的universal的模型。現在的2D大模型中對于視角的資訊做得不好，3D在這個方面有天然的優勢，但是缺少很比對的文本資料。那是不是在整個交叉的領域裡，我們可以搞一個更加universal的model。可能并不是每個領域都必須得有大的資料的支援，因為如果說需要3D的大的資料的支援，那恐怕現在可能隻有車廠有雷達資料一類的資訊。現在的深度圖的資料也還是比較小體量的，是以最好是大模型能夠benefit或者help其他的domain，我覺得這個會非常有價值，謝謝。

我覺得未來1~2年視覺基礎模型最有前景發展方向既不是架構設計，也不是模型訓練，而是定義一種更加通用的評價名額。現在天下苦ImageNet久矣，包括分類、檢測、分割任務的定義，都已經是很久之前提出來的，不能适應現在的需求。那麼我們怎麼樣定義一個新的名額，讓這些任務都能統一起來，進而更好地往前推進視覺識别的一些本質問題，這是未來發展方向。我今天做的報告，就是希望往這個方向去走，謝謝大家。

RACV2022 | 計算機視覺前沿進展研讨會成功召開

RACV2022觀點集錦 | 三維重建和沉浸式渲染

RACV2022觀點集錦 | 視覺基礎模型

繼續閱讀

2022秋招大戰：算法崗擠破頭，JAVA開發也被迫内卷

岚圖汽車發展至今已經走過了3個年頭，一直決心走科技創新+擁抱使用者的發展路線。ESSA+SOA架構的雙重優勢，讓岚圖各車型

年報｜2022-2023年中國平台軟體市場研究年度報告

2022年中國湖倉一體平台市場研究報告｜愛分析報告

商業機你被收割沒？這條視訊刷卡機問題的揭秘。315資料統計，金融支付行業去豐在豐度總排卵投訴率是第二的行業，占比是百分之

2022年中國環境工程服務行業重點企業分析：永清環保VS蘇環院

Visual Studio 2022安裝MFC

到店一台豪爵USR1252022年3月份新車落地1萬多價格便宜1年多車國四電噴ESS發動機聲音純正

抓緊修複！2022年最常被利用漏洞清單 Fortinet五年老漏洞位列第一

[TIP 2022] TransIFC: Invariant Cues-aware Feature Concentration Learning for Efficient FGVCIntroduction

因為要找以往的郵件，于是就在郵箱裡面翻找。需要找的郵件多，要根據時間排序，于是按要求在郵箱裡面翻找着時間。2022年某月

華碩太陽神處理器i9-12900k記憶體32gDDR5-6000芝奇幻鋒戟獨立顯示卡RTX3090Ti24g七彩虹火神202

202020212022冬天

為什麼現在比亞迪都已經這麼成功了，還是有很多人反感它呢？比亞迪現在正在走從小米到華為的轉變，華為有自己的晶片和作業系統，

探索SQL Server 2022在Ubuntu 20.04上的安裝、配置、備份與常見問題

甲子路win11系統max2024和max2022corona10.1vray6.1ps（Bata）AIV25.0版本C