天天看點

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
圖像領域的 GPT 模型終于來了!OpenAI 推出了用于圖像分類的模型 iGPT,該模型生成的特征在多個分類資料集上實作了目前 SOTA 性能,并且實作了良好的圖像補全效果。

機器之心報道,參與:魔王、杜偉、小舟。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

無監督和自監督學習,或者無人工标注資料的學習,這些都是機器學習領域長期存在的挑戰。近期,BERT、GPT-2、RBERTa、T5 等 Transformer 模型以及其他變體在一系列語言任務上實作了最佳性能。然而,在生成用于圖像分類的強特征方面卻始終沒有出現性能強大的模型。

這是因為,與 GPT-2 和 BERT 這類依賴于詞預測的無監督學習算法相比,像素序列無法清楚地包含它們所屬圖像的标簽。

近日,OpenAI 釋出了一項新研究,旨在探索在圖像上訓練 GPT-2 的性能以及無監督準确率表現。研究者表示,BERT 和 GPT-2 等 Transformer 模型是域不可知的,這意味着它們可以直接應用于任何形式的 1D 序列。

OpenAI 研究者在圖像上訓練 GPT-2(這些圖像被分解為長像素序列),他們稱該模型稱為 iGPT。結果發現這種模型似乎能夠了解物體外觀和類别等 2D 圖像特征。iGPT 生成的各種一緻性圖像樣本可以證明這一點,即使沒有人為标簽的指導。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
  • 論文位址:https://cdn.openai.com/papers/Generative_Pretraining_from_Pixels_V2.pdf
  • GitHub 位址:https://github.com/openai/image-gpt
  • 項目首頁:https://openai.com/blog/image-gpt/

iGPT 緣何能夠成功呢?這是因為,在下一像素預測(next pixel prediction)上訓練的足夠大的 transformer 模型最終可能學會生成具有清晰可識别物體的樣本。一旦學會了生成此類樣本,那麼通過「合成分析」,iGPT 将知道目标類别。實驗表明,iGPT 模型的特征在大量的分類資料集上實作了目前 SOTA 性能,以及在 ImageNet 資料集上實作了接近 SOTA 的無監督準确率。

我們先直覺地看一下 iGPT 的效果。下圖展示了,在 CIFAR-10、CIFAR-100、STL-10 和 ImageNet 資料集上,iGPT 與目前最佳非 iGPT 模型的性能對比情況:

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

為了突出生成序列模組化作為通用無監督學習算法的潛力,該研究特意使用了與 GPT-2 相同的 Transformer 架構,因而該模型需要更多計算才能生成與頂級無監督卷積網絡相當的特征。結果表明,當面對一個正确模型先驗未知的新領域時,大型 GPT-2 模型可以學習優秀特征,并且不需要領域特定的架構設計選擇。

iGPT 處理圖像任務的效果如何

iGPT 可實作較好的圖像補全效果。不管是動物、建築物、風景、運動場面、藝術作品,甚至表情包,它都可以實作不錯的補全效果。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

下圖展示了 iGPT 生成的圖像樣本。研究者在采樣過程中使用 temperature 1,且未使用束搜尋或核采樣(nucleus sampling)等 trick。研究者表示,以下所有樣本均未經過挑選。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

我們可以看出,幾乎所有生成圖像均包含清晰可識别的物體。

方法

OpenAI 研究人員提出的方法包含兩個階段:預訓練和微調。

在預訓練階段中,研究人員探索自回歸目标和 BERT 目标,并使用序列 Transformer 架構來預測像素,而非語言 token。

如下圖所示,該方法首先對原始圖像進行預處理,将其調整為低分辨率和 1D 序列;然後在自回歸下一像素預測或掩碼像素預測這兩個預訓練目标中選擇一個;最後,利用 linear probe 或微調,對這些目标學得的表征進行評估。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...

該研究在 ImageNet 上訓練了三個 transformer 模型:iGPT-S、iGPT-M 和 iGPT-L,它們分别包含 76M、455M 和 14 億參數。此外,研究者還基于 ImageNet 和網絡圖檔的混合資料訓練了 iGPT-XL,它包含 68 億參數。

由于使用密集注意力模組化長序列的計算成本較高,是以該研究選擇使用較低的分辨率:32x32、48x48 和 64x64。

分辨率繼續降低可以進一步減少計算成本,但是之前研究表明在這種情況下,人類的圖像分類能力會急劇下降。是以,該研究受早期顔色顯示調色闆(color display palettes)的啟發,建立了 9-bit 顔色調色闆來表示像素。使用該調色闆可以得到長度僅為标準 (R, G, B) 1/3 的輸入序列,同時還能有效編碼顔色。

實驗結果

該研究使用兩種方法來評估模型性能,二者均涉及下遊分類任務。

  • 方法 1:linear probe,即使用訓練好的模型從下遊資料集圖像中提取特征,然後将 logistic 回歸與标簽進行拟合;
  • 方法 2:微調,基于下遊資料集微調整個模型。
在沒有潛變量的生成模型中,哪種表征效果最好?

下一像素預測任務與圖像分類并不明顯相關,最後一層的特征可能無法最好地預測物體類别。

該研究的實驗結果表明,特征品質先是顯著提升,然後逐漸放緩。這表明 transformer 生成模型通過以下兩個階段運作:

  • 第一階段:每個位置從周圍語境中收集資訊,以建構語境化圖像特征;
  • 第二階段:使用語境化特征解決下一像素預測任務。

下圖表明,特征品質嚴重依賴于模型層數。并且,與監督模型相反,下圖中這些生成模型的最優特征出現在網絡中段。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
更好的生成模型學到的表征也更好

該研究執行的另一項實驗試圖在生成性能和特征品質之間建立聯系。實驗結果表明,模型規模的擴大和訓練疊代次數的增加會帶來更好的生成性能,而這可以直接轉換為更好的特征品質。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
在 CIFAR 和 STL-10 上的 Linear Probe 效果

研究者評估了不同模型使用 linear probe 在 CIFAR-10、CIFAR-100 和 STL-10 資料集上的性能,發現該研究提出的方法優于其他監督和無監督遷移算法。甚至在完全微調的設定下,iGPT 的性能仍具備競争力。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
在 ImageNet 上的 Linear Probe 效果

該研究使用 linear probe 在 ImageNet 上進行性能評估。基于 48x48 圖像訓練的 iGPT-L,使用 1536 個特征得到的最優層 top-1 準确率達到 65.2%,超過了 AlexNet。

下表展示了 iGPT 和目前最優自監督模型的 linear probe 準确率對比情況:

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
BERT

由于像 BERT 這樣的遮蔽語言模型(masked language models)在大多數語言任務上的性能都優于生成模型,是以該研究也在圖像模型上評估了 BERT 的性能。

他們沒有按照在之前所有像素的基礎上預測下一個像素的方式來訓練模型,而是遮蔽掉了 15% 的像素,然後訓練模型基于未遮蔽的像素進行預測。研究者發現,盡管 BERT 模型的 linear probe 性能明顯較差,但在微調方面 BERT 模型仍然表現亮眼:

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
在低資料 CIFAR-10 分類任務上的性能

如下表所示,研究者在這一子域的競争性基準上對 iGPT-L 進行了評估,結果發現基于非增強圖像特征的簡單 linear probe 表現優于 Mean Teacher 和 MixMatch,但弱于 FixMatch。

r語言把兩個折線圖圖像放到一個圖裡_模型跨界成潮流?OpenAI用GPT-2做圖像分類,實作SOTA性能...
iGPT 的局限性

盡管該研究表明 iGPT 能夠學習強大的圖像特征,但是該方法仍存在很大的局限性。

由于該研究采用的是用于語言任務的 GPT-2 的通用序列 Transformer,是以需要大量計算:iGPT-L 在 V100 上大約需要訓練 2500 天,而性能類似的 MoCo 模型大約需要訓練 70 天。

此外,該研究用 Transformer 對低分辨率輸入模組化,而大多數自監督結果采用的是基于卷積的編碼器,這些編碼器可以輕松地處理高分辨率輸入。可能需要一種新的架構,例如與域無關的多尺度 Transformer,以實作進一步擴充。

考慮到這些局限性,該研究工作主要是概念證明,證明了基于 Transformer 的大型語言模型在一些新領域中可以學習優秀的無監督表征,而無需寫死領域的知識。但是,訓練這些模型需要大量的資源成本,而基于卷積神經網絡的方法又具有更高的準确率,這讓這些表征在視覺領域中無法實際應用。

最後,生成模型可能會呈現出偏差,這些偏差是模型訓練所用的資料造成的。這些偏差中有許多都是有用的,例如假設棕色和綠色像素的部分代表葉子上覆寫的分支,然後用這種偏差繼續生成圖像。

但是,從公平性和代表性方面考慮,有些偏差是有害的。例如,如果模型建立了一種偏向男性的科學家視覺觀念,那麼它很有可能一直用男性而不是混合性别的人來完成科學家圖像。研究者希望開發者能夠更加關注系統的輸入資料,并更好地了解輸入資料與訓練模型中偏差的關系。

結論

研究者表示,通過 2D 知識與 scale 之間的權衡,并從網絡中部選擇預測特征,序列 Transformer 的性能可以與頂級無監督圖像分類卷積網絡相媲美。

此外,值得注意的是,研究者将 GPT-2 語言模型直接用于圖像生成,也得到了相應的實驗結果。該結果表明,得益于簡單性和通用性,基于足夠計算量的序列 Transformer 可能是多個領域中學習優秀特征的有效方法。

繼續閱讀