
在圖像處理任務中,預訓練面臨着以下兩個挑戰:第一,特定任務的資料可能是有限的。如醫學圖像和衛星圖像這一類涉及付費資料或資料隐私的圖像。各種不一緻的因素(如相機參數、光照、天氣等)會進一步幹擾捕捉到的訓練資料的分布。二、直到測試圖像出來,才知道需要哪種類型的圖像處理作業。是以,必須在手頭準備一系列的圖像處理子產品。它們有不同的目标,但一些底層操作可以共享。目前計算機視覺和自然語言處理方面的預訓練時很普遍的,主要研究的是預測試分類任務,例如目标檢測模型的骨幹通常是在ImageNet分類上進行預訓練。目前計算機視覺和自然語言處理方面的預訓練很普遍。然而圖像處理任務中的輸入和輸出都是圖像。直接應用這些現有的預訓練政策可能是不可行的。此外,如何在訓練前階段有效地解決不同目标圖像處理任務依舊是一個難題。
針對上述問題,論文利用transformer架構開發了一個用于圖像處理的端到端的預訓練模型,即image processing transformer (IPT)。由于預訓練的模型需要相容不同的圖像處理任務,包括超分辨率、去噪、去雨線,整個網絡由多個對應不同任務的頭尾對和單一共享體組成。将訓練圖像輸入到特定的頭部,生成的特征被裁剪成小塊(即“單詞”),并将其簡化為序列。采用transformer對分别用于編碼器和解碼器的位置嵌入和任務嵌入的扁平特征進行處理。另外,根據具體的任務要求,強制結尾部分對輸出大小不同的原始圖像進行預測。此外,還引入了不同輸入塊間關系上的對比損失,以更好地适用于不同的圖像處理任務。如下圖所示。
由于transformer的潛力開發需要大規模資料集,論文準備ImageNet來訓練IPT模型,其中包含1000個類别的各種高分辨率圖檔。對于ImageNet中的每張圖檔,論文使用幾個精心設計的操作來為不同的任務生成多個已損壞的對應圖像。例如,超分辨率任務的訓練樣本是通過對原始圖像進行降采樣生成的。論文用于訓練IPT的完整資料集包含大約1000萬張圖檔。在多個基準測試上的實驗結果表明,預訓練的IPT模型經過微調後,在自身任務上有明顯的增強,可以超過大多數現有的方法。