天天看點

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

該工作由UCF齊國君教授上司的UCF MAPLE 實驗室(Machine Perception and Learning)和阿裡巴巴華先勝博士上司的城市大腦機器視覺研究組合作完成,并将發表在CVPR 2018上。

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

Guo-Jun Qi, LihengZhang, Hao Hu, Marzieh Edraki, Jingdong Wang and Xian-Sheng Hua. Global versusLocalized Generative Adversarial Nets, in CVPR 2018. [pdf]

GAN和基于圖模型的半監督機器學習的關系

GAN除了用來生成資料,我們認為一個非常重要作用是:我們第一次有了一個比較理想的工具,可以用來表示和描述資料流型(manifold)。之前,如果我們想表示流型,一般是借助于一個圖模型(Graph)。在圖模型裡,我們用節點表示資料點,用邊表示資料直接的相似性。有了Graph,我們可以定量計算資料點上函數的變化。比如,在分類問題中,我們感興趣的函數是分類函數,輸出的是資料點的标簽。有了基于Graph的流型,我們就可以建立一個分類模型:它輸出的分類标簽在相似樣本上具有最小的變化。這個就是一種平滑性的假設,是基于圖的半監督方法的核心假設。

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

上圖:基于圖的流型表示和半監督分類。

盡管這種基于圖的半監督方法取得了很大的成功,但是它的缺點也是很明顯的。當資料點數量非常巨大的時候,建構這樣一個Graph的代價會非常大。為了解決這個問題, Graph為我們提供了一個很好的基礎。通過訓練得到的生成器G(z),其實就是一個非常好的流型模型。這裡z就是流型上的參數坐标,通過不斷變化z,我們就可以在高維空間中劃出一個流型結構。

有了這樣一個流型和它的描述G,我們可以在資料流型上研究各種幾何結構。比如切向量空間、曲率,進而去定義在流型上,沿着各個切向量,函數會如何變化等等。好了,這裡GAN就和半監督學習聯系起來了。以前我們是用Graph這種離散的結果去研究分類函數的變化,并通過最小化這種變化去得到平滑性假設。

現在,有了流型直接的參數化描述G(z),我們就能直接去刻畫一個函數(比如分類問題中的分類器)在流型上的變化,進而去建立一個基于這種參數化流型的半監督分類理論,而非去借助基于圖的流型模型。

具體來說,半監督圖流型中,我們常用到Laplacian矩陣來做訓練;現在,有了參數化的流型後,我們就可以直接定義Laplace-Beltrami算子,進而實作半監督的訓練。下面是基于這個方法在一些資料集上得到的結果。更多的結果可以參考我們的論文“Global versus Localized Generative Adversarial Networks“。

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

上表:在SVHN, CIFAR-10和CIFAR-100上的半監督學習效果。

用全局還是局部坐标來研究GAN?

這裡,有個比較精細的問題。通常的GAN模型,得到的是一個全局的參數話模型:我們隻有一個z變量去參數化整個流型。事實上,在數學上,這種整體的參數化王是不存在的,比如我們無法用一個參數坐标去覆寫整個球面。這時我們往往要借助于通過若幹個局部的坐标系去覆寫整個流型。

同時,使用局部坐标系的另一個更加實際的好處是,我們給定一個目标資料點x後,整體坐标系G(z)要求我們必須知道對應的一個參數坐标z;而使用局部坐标系後,我們就直接可以在x附近去建立一個局部坐标系G(x,z)去研究流型周圍的幾何結構,而不用去解一個逆問題去去它對應的z了。這個極大地友善了我們處理流型上不同資料點。

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

上圖:流型的局部參數化表示。

沿着這個思路,我們可以利用參數化的局部坐标和它表示的流型來研究一系列問題。

1. 比較理論的研究可以專注于,有了這些局部參數表示,如何去定義出一整套黎曼流型的數學結構,比如局部的曲率,黎曼度量,和如果沿着流型去算測地線和兩個資料點之間的測地距離。

2. 從應用的角度,給定了一個圖像x,用局部表示G(x,z)可以對這個x在它的局部領域中做各種編輯操作或者控制圖像的各種屬性,進而可以幫助我們生成想要的圖像;比如不同角度的人臉、人體姿态、物體,甚至不同風格、表現不同情感的圖像等等。這在安防、内容生成、虛拟現實等領域都會有廣泛的應用前景。

從幾何角度研究Mode collapse問題

當然,從幾何和流型參數化的角度還可以給出對GAN更深入的了解,比如對mode collapse問題。在GAN的相關研究中,mode collapse是一個被廣泛關注的問題。有很多相關的論文在從不同角度來研究和解決這個問題。

而基于Localized GAN所揭示的幾何方法,我們可以從流型局部崩潰的角度來

解釋和避免GAN的modecollapse。具體來說,給定了一個z,當z發生變化的時候,對應的G(z)沒有變化,那麼在這個局部,GAN就發生了mode collapse,也就是不能産生不斷連續變化的樣本。這個現象從幾何上來看,就是對應的流型在這個局部點處,沿着不同的切向量方向不再有變化。換言之,所有切向量不再彼此互相獨立--某些切向量要麼消失,要麼互相之間變得線性相關,進而導緻流型的次元在局部出現缺陷(dimensiondeficient)。

為了解決這個問題,最直接的是我們可以給流型的切向量加上一個正交限制(Orthonormalconstraint),進而避免這種局部的次元缺陷。下圖是在CelebA 資料集上得到的結果。可以看到,通過對不同的切向量加上正交化的限制,我們可以在不同參數方向上成功地得到不同的變化。

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

上圖:在給定輸入圖像的局部坐标系下對人臉的不同屬性進行編輯。

值得注意的是,盡管我們是從局部GAN的角度推導和實作了對切向量的正交化限制,這個思路和方法同樣适用于傳統的整體GAN模型。我們隻需要在訓練整體GAN模型的同時,在每個訓練資料樣本或者一個batch的子集上也加上這個限制來求取相應的下降梯度就同樣可以訓練整體GAN模型;這個方向可以引申出未來的相關工作

原文釋出時間為:2018-05-11

本文來自雲栖社群合作夥伴新智元,了解相關資訊可以關注“AI_era”。

原文連結:

CVPR 2018:阿裡提出應用 LocalizedGAN 進行半監督訓練

繼續閱讀