天天看點

北大鄒月娴:視覺-語言預訓練模型演進及應用

北大鄒月娴:視覺-語言預訓練模型演進及應用

作者丨鄒月娴

整理 | 維克多

編輯 | 青暮

預訓練模型在自然語言處理和計算機視覺領域引起了學術界和工業界的廣泛關注。利用大規模無監督資料進行訓練的預訓練模型有着非常好的泛化性,隻需在小規模标注資料上進行微調,就可以在相應任務上有所提高。但相關研究的進展如何?還有哪些問題需要進一步探索?

2021年12月16日,北京大學深圳研究所學生院黨委副書記、教授、博士生導師、北京大學現代信号與資料處理實驗室主任鄒月娴在中國計算機大會(CNCC 2021)“産業共話:大型預訓練模型的商業應用及技術發展方向”論壇上,做了《視覺-語言預訓練模型演進及應用》的報告,讨論了圍繞大規模預訓練模型的争議、最新進展以及研究思路,并給出了未來展望。

例如她提到:

“‘視覺-語言’的子任務非常多,有各自的資料集,這使得解決NLP任務的進展非常快,但預訓練模型方法在視覺領域卻遇到了非常大的問題:資料标記成本很高。MSCOCO資料集隻标記了12萬張圖檔,每張圖檔給出5個标記,總共花費了10.8W美金。”

“目前的幾個主流VL-PTMs的技術路線很相似,都采用單一 Transformer架構模組化視覺和文本輸入;視覺輸入為 Region-of- Interests (Rols) 或者 Patches,缺失全局或者其他進階視覺語義資訊……”

而後者表明,主流視覺-語言預訓練模型存在很多局限,導緻在遷移至下遊任務時,隻适用于分類任務,而不适用生成任務。

以下是演講全文,AI科技評論做了不改變原意的整理。

今天演講的題目是《視覺-語言預訓練模型演進及應用》,主要結合團隊工作以及本人感悟探讨人工智能發展目前展現的趨勢。本次演講分為4個部分:背景介紹、視覺-語言預訓練模型、視覺-語言預訓練模型及應用研究以及未來展望。

北大鄒月娴:視覺-語言預訓練模型演進及應用

人工智能已經有六十多年的發展曆程,自2017年以來,Transformer和BERT(2018年)相繼提出,開啟了大資料、預訓練與遷移學習新篇章,将其定義為新時代也毫不誇張。目前,不同于前幾十年的工作已成定論,該領域尚待進一步深入探索。

北大鄒月娴:視覺-語言預訓練模型演進及應用

以自然語言處理(NLP)為例,其演化過程如上圖所示,OpenAI在2018年釋出第一代GPT模型,短短幾年時間“大模型”已經初具規模。這裡的“大”有兩層含義:模型訓練使用的資料量大,模型蘊含的參數規模大。中國在這方面也有出色的工作,2021年的悟道2.0更是達到了萬億參數規模。

目前關于大規模預訓練模型還有一些争議,主要的争論點在于:

1.超大模型學到了什麼?如何驗證?

2.如何從超大模型遷移“知識”,提升下遊任務的性能?

3.更好的預訓練任務設計、模型架構設計和訓練方法?

4.選擇單模态預訓練模型還是多模态訓練模型?

雖然有争議,但不得不承認 “暴力美學”确實有獨到之處,例如百度ERNIE3.0曾經重新整理了50多個NLP任務基準。要知道,在業界,無數學生、學者為一個SOTA就絞盡腦汁了,但大規模預訓練模型卻能批量“生産”SOTA。另一方面,50多個SOTA也說明,這不是偶然。

北大鄒月娴:視覺-語言預訓練模型演進及應用

目前學界已經公認AI的發展離不開借鑒人類大腦的研究成果,是以多模态預訓練模型這條內建類腦機制和機器學習的路徑,自然也成為關注的焦點。

但仍然有許多腦科學發現的機理未能弄清楚,例如多層抽象、注意力機制、多模态聚合機制、多模态代償機制、多線索機制、協同機制等等。

人類約有70%的資訊依靠視覺獲得,剩餘約20%~30%的資訊依靠聽覺和觸覺。關于人類智能,語言具備真正高階的語義。例如,當說到“蘋果”一詞的時候,腦子 “浮現”的是一張“可以吃”的蘋果圖檔;當說到 “蘋果手機”的時候,大腦則會出現蘋果牌手機的概念。

是以,大腦這種“視覺參與聽覺感覺”的機制、“視覺概念與語言概念一緻性”的認知機制是我們機器學習采取多模态預訓練模型的可靠性依據之一。

“視覺-語言模型”開發是否可行?中國人民大學的一項研究表明,網際網路提供了90%的圖文大資料,而文本資料隻占了10%。在大量資料源的加持下,視覺-語言預訓練模型也成了2021年的研究熱點。

北大鄒月娴:視覺-語言預訓練模型演進及應用

視覺-語言,英文名稱是“Vision and Language,VL”。VL預訓練模型旨在讓機器處理涉及到“了解視覺内容和文本内容”的任務。VL任務可以分成VL生成任務和VL分類任務。

這兩類任務解決的問題不一樣,難度也不一樣。對于VL生成任務,不僅需要對視覺資訊進行了解,還需要生成相應的語言描述,既涉及編碼,又涉及解碼;而VL分類任務隻需要了解資訊。顯然,生成任務的難度較大。

北大鄒月娴:視覺-語言預訓練模型演進及應用

VL生成任務的技術難點在于需要了解視覺的高階語義,建立視覺-文本的語義關聯。例如,視訊描述(Video Captioning)任務需要“概括”視訊内容,圖像描述(Image Captioning)任務需要對每一幀圖像生成描述。

目前,視覺問答(VQA)是熱門的VL分類任務之一,可以了解為:給定一張圖像,讓模型回答任何形式的基于自然語言的問題。

北大鄒月娴:視覺-語言預訓練模型演進及應用

如上(左)圖所示,如果你詢問機器“What is she eating?”,VL分類器就會了解圖檔資訊,然後給出正确的回答“hamburger”。

目前“視覺-語言”的子任務非常多,各有資料集,例如VQA、VCR、NLVR2等等。我們注意到,由于NLP任務有大資料集支援,其預訓練模型技術發展迅猛。但對于視覺-語言任務,由于标注大規模資料集需要極高的成本,導緻VL模型的性能提升緩慢。

以圖像描述任務為例,MSCOCO資料集隻标記了12萬張圖檔,每張圖檔給出5個标記,總共花費了10.8W美金。是以,不同的VL任務依賴于不同的模型架構+不同的标注資料集,标注代價昂貴,性能尚未滿足應用需求。

是以,探索新的VL預訓練代理任務,減少對數标注的依賴,是一個很有意義的研究方向。2019年學術界開啟了VL-PTMs的研究工作。

北大鄒月娴:視覺-語言預訓練模型演進及應用

1

視覺-語言預訓練模型的演進

北大鄒月娴:視覺-語言預訓練模型演進及應用

關于VL預訓練模型,從2019年開始就出現了非常多的出色工作,例如“開山”的ViLBERT,2020年的UNITER以及2021年的CLIP。随着時間的推移,模型包含的資料量也越來越大,能力越來越“出衆”。整體的技術路線可以分為兩大類:單塔模型和雙塔模型。

北大鄒月娴:視覺-語言預訓練模型演進及應用

UNITER是2020年由微軟提出的,它用了4個代理任務訓練模型,在4個下遊任務進行了測試,獲得了性能提升。上述研究都是采用預訓練模型加 “微調”的研究範式。

北大鄒月娴:視覺-語言預訓練模型演進及應用

2021年OpenAI用雙流架構開發了CLIP,CLIP的出現就技驚四座。其原理非常簡單,分為編碼和解碼兩個部分,編碼器選用典型的Transformer。CLIP模型的驚豔之處在于,CLIP預訓練模型直接能夠擁有零樣本學習(Zero-Shot Learning)能力, OpenAI在20多個不同粒度的分類任務中測試發現,CLIP預訓練模型具有良好的零樣本遷移性能,能學到更通用的視覺表征。

2

視覺-語言預訓練模型及應用研究

我們對上述主流VL預訓練模型,從基礎網絡結構、視覺輸入、文本輸入、主流資料集、訓練政策以及下遊任務六個方面進行了分析。

北大鄒月娴:視覺-語言預訓練模型演進及應用

分析發現,主流VL-PTMs的技術路線很相似:

1. 采用單一Transformer架構模組化視覺和文本輸入;

2. 視覺輸入為 Region-of- Interests(Rols)或者 Patches,缺失全局或者其他進階視覺語義資訊;

3.大多采用的代理任務是BLM(雙向語言模型)、S2SLM(單向語言模型)、ISPR(圖文比對)、MOP(掩蔽物體預測)等等。

是以,已提出的視覺-語言預訓練模型更适合遷移到下遊分類任務,例如VQA。對于下遊生成任務,例如圖像描述,視覺-語言預訓練模型并不适合。

北大鄒月娴:視覺-語言預訓練模型演進及應用

我們團隊也開展了探索性研究,研究思路是堆疊Transformer+自注意力機制,其中創新地提出自注意力模型差別地處理視覺模态和文本模态,即采用不同的QKV變換參數,分别對視覺和文本模态模組化。

同時,引入視覺概念資訊,緩解視覺語義鴻溝。經過驗證發現,我們提出的基于注意力模态解耦的VL-PTM:DIMBERT(2020),可以同時适用于分類任務和生成任務。

相比當年(2020年)的最新SOTA, DIMBERT模型更小(隐形雙塔),僅僅在 Conceptual Captions任務上進行預訓練,具有資料量需求優勢,在測試的下遊任務都達到SOTA,在沒有decoder的架構下,可以遷移至下遊生成任務。

這項工作也給我們兩點啟示:

1.從資訊表征視角來看,視覺資訊和文本資訊需要不同的表達方法,畢竟文本擁有相對更加高階的語義資訊。

2.盡量引入人類高階語義資訊,人類對物體有非常明确的定義,蘋果就是蘋果,梨就是梨,是以定義物體屬性,用語言資訊緩解語義鴻溝非常有必要。

北大鄒月娴:視覺-語言預訓練模型演進及應用

2021年10月份,Facebook釋出了Video CLIP相關工作,屬于視訊VL預訓練模型。從這個模型可以看出,Video CLIP頗具野心,期待對于下遊任務不需要任務相關訓練資料集,不需要進行微調,直接基于Video CLIP進行零樣本遷移。

具體而言,它基于對比學習結合Transformer架構,試圖搭建視覺-文本聯合預訓練模型,期望能夠關注更細粒度的結構。

Video CLIP的核心工作聚焦于對比學習架構結合訓練資料樣本的構造,其正樣本的構造是視訊段-比對文本描述對。此外,通過對正樣本進行近鄰搜尋,獲得困難負樣本,進而建構出視訊-非比對文本對。

更為具體,該模型采用對比損失,學習比對視訊-文本對之間的細粒度相似性;通過對比學習方式拉近具有相似語義的視訊-文本表征。這個工作從研究的創新性來看并不突出,但模型性能令人驚訝。

北大鄒月娴:視覺-語言預訓練模型演進及應用

我們認為,借鑒Video CLIP的研究思路,可以在更細粒度層面進行提升,我們提出了一個幀級别文本細粒度比對方法。

實驗結果表明,細粒度比對能獲得更加準确、具有完整的空間模組化能力。我們在ActivityNet資料集上進行了視訊檢索的召回率測試,發現在所有epoch下,我們提出的基于細粒度比對政策的預訓練模型性能都優于基于全局比對政策的預訓練模型;此外,我們發現,當獲得同一性能,我們提出的基于細粒度比對的模型其訓練速度是基于全局比對方法的四倍。

綜上,預訓練模型、跨模态預訓練模型方面的研究是非常值得探索的,無論是模型結構、訓練政策還是預訓練任務的設計都尚有非常大的潛力。

未來,AI社群或許會探索更多的模态,例如多語言、運動、音頻以及文字;更多的下遊任務,例如視訊描述、視訊摘要;更多的遷移學習機制,例如參數遷移、提示學習、知識遷移等等。

北大鄒月娴:視覺-語言預訓練模型演進及應用

雷峰網雷峰網

繼續閱讀