天天看點

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

作者:将門創投

引用表達分割(Referring Expression Segmentation,簡稱引用分割或RES)是一個基礎的視覺語言多模态任務。給定一張圖像和一個描述該圖像中某個對象的自然語言表達式,RES旨在找到該目标對象并将其分割。現有的引用分割資料集和方法通常僅支援單目标表達式,即一個表達式指代一個目标對象。而對于多目标和無目标表達式的情況,則沒有考慮在内。嚴重限制了引用分割的實際應用。基于這個問題,來自新加坡南洋理工大學的研究者們定義了一個名為廣義引用分割(Generalized Referring Expression Segmentation,GRES)的新任務,将經典的引用分割擴充到允許表達式指代任意數量的目标對象。同時,文章還建構了第一個大規模的GRES資料集gRefCOCO,其同時包含多目标、無目标和單目标表達式。

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

論文位址:https://arxiv.org/abs/2306.00968

項目首頁:https://henghuiding.github.io/GRES/

RES在圖形編輯、視訊制作、人機互動和機器人等衆多應用領域具有巨大潛力。目前,大多數現有方法都遵循在知名資料集ReferIt和RefCOCO中定義的RES規則,并在近年來取得了巨大進展。然而,大多數經典的引用分割方法對任務有預定義的強限制:

  1. 傳統的RES不考慮無目标表達式,即在圖像中沒有比對對象的自然表達語句。這意味着如果語句描述的目标在輸入圖像中不存在,現有的RES方法的行為是未定義的。在這種假設下,輸入表達式必須與圖像中的某個對象比對,否則會不可避免地出現錯誤。
  2. 大多數現有資料集,例如最流行的RefCOCO,幾乎不包含多目标表達式,即在一句話中同時指向多個目标物體的表達式。這意味着如果需要同時查找多個目标,使用者需要分多次鍵入查詢指令且每次隻能指向一個目标物體。
CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

圖1:引用分割的執行個體,使用“The kid in red”來訓示并分割圖檔中的紅衣服小男孩

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

一、新任務:廣義引用表達式分割

在文章中,為了解決傳統RES存在的問題,研究者們提出了一個名為廣義引用表達分割(Generalized Referring Expression Segmentation,簡稱GRES或廣義引用分割) 的新任務,允許表達式指向任意數量的目标對象。與經典的RES類似,GRES接受一張圖像和一句自然語言表達式作為輸入。但與傳統RES不同,GRES進一步支援了多目标表達式,即在單個表達式中指定多個目标對象,例如圖2中的“Everyone except the kid in white”,以及無目标表達式,即表達式沒有指向圖像中的任何對象,例如圖2中的“the kid in blue”。GRES為輸入表達式提供了更大的靈活性,可以更好地支撐引用分割的實際應用。

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

圖2:多目标表達式和無目标表達式示例

二、新資料集:gRefCOCO

然而,現有的幾個引用表達資料集,如RefCOCO系列,幾乎不包含多目标表達式或無目标表達式樣本,隻有單目标表達式樣本,如表1所示。

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

表1:gRefCOCO與其他引用表達式資料集的比較

為了促進對GRES的研究工作,本文建構了新的大規模引用分割資料集gRefCOCO。它進一步包含多目标表達式和無目标表達式。該資料集共有278,232個表達式,其中包括80,022個多目标表達式和32,202個無目标表達式,涉及19,994張圖像中的60,287個不同物體。

gRefCOCO資料集的多目标表達式主要有以下難點:

  1. 計數表達式:處理包含計數的表達式,需要區分基數詞和序數詞,如“two”和“second”,并具備對象計數能力。
  2. 複合句結構:了解複合句結構中的多個元素之間的關系,包括“A and B”、“A except B”和“A with B or C”。如圖3中的第一個表達式。
  3. 屬性的範圍:要處理多目标表達式中的不同目标之間的屬性共享或差異,需深入了解各個屬性以及它們與相應對象之間的關系。
  4. 複雜關系:多目标表達式中的關系描述更複雜,需要了解并推斷目标之間的關系,例如通過關鍵詞“and”來訓示目标數量。模型需對圖像和表達式中的所有執行個體及其互相作用有深入了解。如圖3中的第二個表達式,使用了複雜的句子來表達目标與非目标之間的關系。
CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

圖3:gRefCOCO樣本示例

無目标表達式的建構主要遵循兩個原則:

  1. 表達式不能與圖像完全無關。例如,給定圖1中的圖像,“the kid in blue”是可以接受的,因為圖像中确實存在“kid”和“blue”,但沒有一個“kind in blue”。但是像"狗"、“汽車”、"河流"等與該圖像中的任何内容都完全無關的表達式是不可接受的。
  2. 如果規則1中所要求的表達式很難想出,标注員可以選擇從RefCOCO同一split中的其他圖像中選取具有迷惑性的表達式。

三、新模型:ReLA

GRES中多目标表達式中的關系和屬性描述更加複雜。與經典的引用分割(RES)相比,對于廣義引用表達分割(GRES)來說,更具挑戰性的是對圖像中區域之間的複雜互動關系進行模組化,并捕捉所有對象的細粒度屬性。本文提出了一個新的基準模型ReLA,明确地對圖像的不同部分和表達式中的不同單詞進行資訊交換和互相作用,以分析它們之間的依賴關系。通過這種方式,能夠更好地了解圖像和表達式之間的複雜互動。

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

所提出的關系(ReLAtionship)模組化方法具有兩個主要子產品,即區域-圖像交叉注意力(Region-Image Cross Attention,RIA)和區域-語言交叉注意力(Region-Language Cross Attention,RLA)。RIA子產品靈活地收集區域圖像特征,而RLA子產品則捕捉區域之間的關系以及區域與語言之間的依賴關系。通過這兩個子產品,能夠更好地模組化圖像和表達式之間的複雜互動,并提高引用表達分割的性能。

四、實驗

根據GRES任務的特性,文章提出了新的測評名額:gIoU、N-acc、T-acc,分别用來衡量整體分割性能、正确識别無目标表達式的性能、和無目标表達式對引用分割的影響。

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES
CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

提出的基準方法ReLA在GRES和傳統單目标RES上均取得了最佳性能。這證明了顯式模組化不同圖像區域和詞語之間的關系對引用分割的有效性。對多目标表達式的分割結果可視化如下:

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES
CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

對無目标表達式的分割結果可視化如下:

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

五、 總結

本文分析并解決了經典引用分割(RES)任務的局限性,即無法處理多目标和無目标表達式。基于此,本文定義了一個名為廣義引用表達分割(GRES)的新任務,允許表達式中包含任意數量的目标。

為支援GRES的研究,本文建構了一個大規模的資料集gRefCOCO、提出了基準方法ReLA,用于顯式模組化不同圖像區域和詞語之間的關系。該方法在經典的RES任務和新提出的GRES任務上取得了最佳結果。GRES降低了對自然語言輸入的限制,擴大了引用分割的應用範圍,如多執行個體和無正确對象的情況,期待GRES能夠打開了新的應用領域。

更多細節,敬請參考論文原文。

作者:Henghui Ding

Illustration by unDraw

-The End-

本周上新!

掃碼觀看!

“AI技術流”原創投稿計劃

TechBeat是由将門創投建立的AI學習社群(www.techbeat.net)。社群上線480+期talk視訊,2400+篇技術幹貨文章,方向覆寫CV/NLP/ML/Robotis等;每月定期舉辦頂會及其他線上交流活動,不定期舉辦技術人線下聚會交流活動。我們正在努力成為AI人才喜愛的高品質、知識型交流平台,希望為AI人才打造更專業的服務和體驗,加速并陪伴其成長。

投稿内容

// 最新技術解讀/系統性知識分享 //

// 前沿資訊解說/心得經曆講述 //

投稿須知

稿件需要為原創文章,并标明作者資訊。

我們會選擇部分在深度技術解析及科研心得方向,對使用者啟發更大的文章,做原創性内容獎勵

投稿方式

發送郵件到

[email protected]

或添加從業人員微信(chemn493)投稿,溝通投稿詳情;還可以關注“将門創投”公衆号,背景回複“投稿”二字,獲得投稿說明。

>>> 添加小編微信!

關于我“門”▼将門是一家以專注于發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋将門創新服務、将門技術社群以及TechBeat人工智能社群。公司緻力幹通過連接配接技術與商業,發掘和培育具有全球影響力的科技創新企業,推動企業創新發展與産業更新。

将門成立于2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬建構而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我“門”:

CVPR23 Highlight | 多模态新任務、新資料集:NTU提出廣義引用分割問題GRES

⤵一鍵送你進入TechBeat快樂星球

繼續閱讀