通用視覺GPT之戰打響！智源推出SegGPT，批量摳圖神器來了

智東西

作者 | ZeR0

編輯 | 漠影

智東西4月8日報道，繼ChatGPT掀起語言大模型狂潮後，本周，計算機視覺迎來了GPT時刻。先是周四Meta釋出“分割一切”模型SAM，緊接着智源研究院視覺團隊也推出

通用分割模型SegGPT（Segment Everything In Context）

。

SegGPT可用于分割上下文中所有事物，是首個利用視覺提示（prompt）完成任意分割任務的通用視覺模型。SegGPT與SAM的差異在于：

（1）SegGPT

“

一通百通”：

給出一個或幾個示例圖像和意圖掩碼，模型就能明白使用者意圖，“有樣學樣”地完成類似分割任務。使用者在畫面上标注識别一類物體，即可批量化識别分割同類物體，無論是在目前畫面還是其他畫面或視訊環境中。

（2）SAM

“

一觸即通”：

通過一個點或邊界框，在待預測圖檔上給出互動提示，識别分割畫面上的指定物體。

無論是“一觸即通”還是“一通百通”，都意味着視覺模型已經“了解”了圖像結構。

SAM精細标注能力與SegGPT的通用分割标注能力相結合，能把任意圖像從像素陣列解析為視覺結構單元，像生物視覺那樣了解任意場景。

論文位址：https://arxiv.org/abs/2304.03284

代碼位址：https://github.com/baaivision/Painter

Demo：https://huggingface.co/spaces/BAAI/SegGPT

一、目标是分割一切物體，三大優勢加持

SegGPT是智源通用視覺模型Painter的衍生模型，針對分割一切物體的目标做出優化。

訓練完成後，無需微調，隻需提供示例，SegGPT就能自動推理并完成對應分割任務。

具體來看，SegGPT模型具有以下優勢能力：

1、通用能力

：SegGPT具有上下文推理能力，模型能夠根據提供的分割示例（prompt），對預測進行自适應的調整，實作對“everything”的分割，包括執行個體、類别、零部件、輪廓、文本、人臉、醫學圖像等。

2、靈活推理能力

：支援任意數量的prompt；支援針對特定場景的tuned prompt；可以用不同顔色的mask表示不同目标，實作并行分割推理。

3、自動視訊分割和追蹤能力

：以第一幀圖像和對應的物體掩碼作為上下文示例，SegGPT能夠自動對後續視訊幀進行分割，并且可以用掩碼的顔色作為物體的ID，實作自動追蹤。

二、應用示例：批量“摳”出彩虹、行星環帶

1、标注出一個畫面中的彩虹，SegGPT就能批量化分割其他畫面中的彩虹。

2、研究人員在廣泛的任務上對SegGPT進行了評估，包括少樣本語義分割、視訊對象分割、語義分割和全景分割。

下圖中具體展示了SegGPT在執行個體、類别、零部件、輪廓、文本和任意形狀物體上的分割結果。

3、用畫筆大緻圈出行星環帶。

SegGPT在預測圖中準确輸出目标圖像中的行星環帶。

4、根據使用者提供的宇航員頭盔掩碼這一上下文。

SegGPT能夠在新的圖檔中預測出對應的宇航員頭盔區域。

三、訓練思路：定義為上下文着色問題，多項技術解鎖分割能力

SegGPT将各種分割任務統一到一個通用的上下文學習架構中，通過将各類分割資料轉換為相同格式的圖像來統一各式各樣的資料形式。

其訓練被定義為一個上下文着色問題，每個資料樣本都有随機的顔色映射，以根據上下文完成不同的任務，而非依賴于特定的顔色。

經訓練，SegGPT可以通過上下文推理在圖像或視訊中執行任意分割任務，如物體執行個體、類别、零部件、輪廓、文本和任意形狀物體等。

如何通過 test-time techniques 解鎖各種能力是通用模型的一大亮點。

SegGPT論文中提出了多個技術來解鎖和增強各類分割能力，比如下圖所示的不同的context ensemble方法。論文所提出的Feature Ensemble方法可以支援任意數量的prompt示例。

此外，SegGPT還支援對特定場景優化專用prompt提示。對于針對性的使用場景，SegGPT可以通過prompt tuning得到對應prompt，無需更新模型參數來适用于特定場景。

比如，針對某一資料集自動建構一個對應的prompt，或者針對一個房間來建構專用prompt。如下圖所示：

結語：強大零樣本場景遷移能力，經典CV資料集上取得最優性能

模型隻需少數prompt示例，在COCO和PASCAL資料集上取得最優性能。

SegGPT顯示出強大的零樣本場景遷移能力，比如在少樣本語義分割測試集FSS-1000上，在無需訓練的情況下取得state-of-the-art性能。

無需視訊訓練資料，SegGPT可直接進行視訊物體分割，并取得和針對視訊物體分割專門優化的模型相當的性能。

以下是基于tuned prompt在語義分割和執行個體分割任務上的效果展示：

SegGPT在廣泛的任務中進行了評估，包括少數照片的語義分割、視訊物體分割、語義分割、全景分割。結果顯示，在對域内和域外目标進行分割時，無論是品質還是數量都有很強的能力。

随着SAM和SegGPT兩款圖像分割基礎模型的釋出，通用視覺GPT曙光乍現。