天天看點

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

兩年前,蒙特利爾大學 ian goodfellow 等學者提出“生成對抗網絡”(generative adversarial networks,gans)的概念,并逐漸引起 ai 業内人士的注意。其實,直到 2015 年,生成對抗網絡還稱不上是炙手可熱。但自今年(2016)以來,學界、業界對 gans 的興趣出現“井噴”:

多篇重磅論文陸續發表;

facebook、open ai 等 ai 業界巨頭也加入對 gans 的研究;

它成為今年 12 月 nips 大會當之無愧的明星——在會議大綱中被提到逾 170  次;

gans之父” ian goodfellow 被公推為人工智能的頂級專家;

業内另一位大牛 yan lecun 也對它交口稱贊,稱其為“20 年來機器學習領域最酷的想法”。

現在,雷鋒網獲得消息,就連蘋果也跳上了 gans 的彩車:蘋果有史以來第一篇公開發表的 ai 論文,講的是如何更好地利用 gans,來訓練 ai 圖像識别能力。這是繼蘋果本月初在 nips 大會上宣布“将對外公布 ai 研究成果”之後,為兌現諾言做出的行動。

那麼,gans 是如何從一個原本“不溫不火”的技術,成為今天人工智能的主要課題之一?

雷鋒網對此進行了梳理,歸納了 gans 從誕生到現在如何一步步走向技術成熟。以下是它發展路線中的大事件(主要研究進展):

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

ian goodfellow

2014 年 6 月,ian goodfellow 等學者發表了論文《generative adversarial nets》,題目即“生成對抗網絡”,這标志着 gans 的誕生。文中,ian goodfellow 等作者詳細介紹了 gans 的原理,它的優點,以及在圖像生成方面的應用。

那麼,什麼是 gans?

用 ian goodfellow 自己的話來說:

“生成對抗網絡是一種生成模型(generative model),其背後基本思想是從訓練庫裡擷取很多訓練樣本,進而學習這些訓練案例生成的機率分布。 而實作的方法,是讓兩個網絡互相競争,‘玩一個遊戲’。其中一個叫做生成器網絡( generator network),它不斷捕捉訓練庫裡真實圖檔的機率分布,将輸入的随機噪聲(random noise)轉變成新的樣本(也就是假資料)。另一個叫做判别器網絡(discriminator network),它可以同時觀察真實和假造的資料,判斷這個資料到底是不是真的。”

對不熟悉 gans 的讀者,這番解釋或許有些晦澀。是以,雷鋒網特地找來 ai 部落客 adit deshpande 的解釋,更加清楚直白:

“gans 的基本原理是它有兩個模型:一個生成器,一個判别器。判别器的任務是判斷給定圖像是否看起來‘自然’,換句話說,是否像是人為(機器)生成的。而生成器的任務是,顧名思義,生成看起來‘自然’的圖像,要求與原始資料分布盡可能一緻。 gans 的運作方式可被看作是兩名玩家之間的零和遊戲。原論文的類比是,生成器就像一支造假币的團夥,試圖用假币蒙混過關。而判别器就像是警察,目标是檢查出假币。生成器想要騙過判别器,判别器想要不上當。當兩組模型不斷訓練,生成器不斷生成新的結果進行嘗試,它們的能力互相提高,直到生成器生成的人造樣本看起來與原始樣本沒有差別。”

早期的 gans 模型有許多問題。yan lecun 指出,其中一項主要缺陷是:gans 不穩定,有時候它永遠不會開始學習,或者生成我們認為合格的輸出。這需要之後的研究一步步解決。

gans 最重要的應用之一,是生成看起來‘自然’的圖像,這要求對生成器的充分訓練。以下是 ian goodfellow 等人的 2014 年論文中,生成器輸出的樣本:

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

可以看出,生成器在生成數字和人臉圖像方面做得不錯。但是,使用 cifar-10 資料庫生成的風景、動物圖檔十分模糊。這是 gans 早期的主要局限之一。

2015 年 6 月 emily denton 等人發表的研究《deep generative image models using lapalacian pyramid of adversarial networks》(“深度圖像生成模型:在對抗網絡應用拉普拉斯金字塔”)改變了這一點。研究人員提出,用一系列的卷積神經網絡(cnn)連續生成清晰度不斷提高的圖像,能最終得到高分辨率圖像。該模型被稱為 lapgans 。

其中的拉普拉斯金字塔,是指同一幅圖像在不同分辨率下的一系列過濾圖檔。與此前 gan 架構的差別是:傳統的 gan 隻有一個 生成器 cnn,負責生成整幅圖像;而在拉普拉斯金字塔結構中,金字塔的每一層(某特定分辨率),都有一個關聯的 cnn。每一個 cnn 都會生成比上一層 cnn 更加清晰的圖像輸出,然後把該輸出作為下一層的輸入。這樣連續對圖檔進行升采樣,每一步圖像的清晰度都有提升。

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

拉普拉斯金字塔結構圖像生成示意

這産生了一個新概念:有條件生成對抗網絡(conditional gan,cgan),指的是它有多個輸入:低分辨率圖檔和噪音矢量。該研究所學生成的高品質圖檔,在 40% 的情況下被真人裁判當做真實圖像。

對該研究的意義,李嫣然評論道:它将 gan 的學習過程變成了“序列式” 的——不要讓 gan 一次學完全部的資料,而是讓 gan 一步步完成這個學習過程。

把文字轉化為圖像,比起把圖像轉為文字(讓 ai 用文字概括、描述圖像)要難得多。一方面是近乎無限的像素排列方式;另一方面,目前沒人知道如何把它分解,比如像(圖像轉為文字任務中)預測下一個詞那樣。

2016 年 6 月,論文《generative adversarial text to image synthesis》(“gans 文字到圖像的合成”)問世。它介紹了如何通過 gans 進行從文字到圖像的轉化。比方說,若神經網絡的輸入是“粉色花瓣的花”,輸出就會是一個包含了這些要素的圖像。該任務包含兩個部分:1. 利用自然語言處理來了解輸入中的描述。2. 生成網絡輸出一個準确、自然的圖像,對文字進行表達。

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

原理示意

該任務中,gan 其實完成了兩件任務:1.生成自然、說得過去的圖像;2.圖像必須與文字描述有相關性。

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

利用 gan, gan-cls, gan-int,gan-int-cls 生成的結果示意。gt 是真實圖像,從左到右三組圖像的任務分别是:1.全黑色的鳥,粗圓的鳥嘴;2.黃胸、棕冠、黑眉的小鳥;3. 藍冠、藍羽、黑頰的超小鳥,嘴小、踝骨小、爪小。

這是推特 cortex 研究團隊進行的一項研究,在今年 9 月發表。它的主要貢獻是開發出全新的損失函數(loss function),使得 gans 能對大幅降采樣後的圖像,恢複它的生動紋理和小顆粒細節。

對于不熟悉超分辨率的雷鋒網讀者,它是一個能把低分辨率圖像重建為高清圖像的技術。在機器學習中,實作超分辨率需要用成對樣本對系統進行訓練:一個是原始高清圖像,一個是降采樣後的低分辨率圖像。本研究中,低分圖像被作為輸入喂給生成器,它重建出高分辨率圖像。然後,重建圖檔和原始圖檔被一起交給判别器,來判斷哪一幅是原始圖像。

生成對抗網絡(GANs )為什麼這麼火?盤點它誕生以來的主要技術進展

左欄是原始圖像,右三欄是 gans 重建的高分圖像。

以上是 gans 2014-2016 發展期間的主要裡程碑。但讀者們注意,2016 年以來,gans 的研究應用層出不窮。以上隻是最具代表性的幾個,不代表其他 gans 研究就沒有價值。

值得一說的是,今年 6 月一篇關于深度卷積 gans (deep convolutional generative adversarial networks, dcgan)的論文在業内引發強烈反響:《unsupervised representation learning with deep convolutional generative adversarial networks》(“使用深度卷積 gans 進行無監督表征學習”)。研究人員們發現,用大規模資料庫訓練出的 gans 能學習一整套層級的特征 (a hierarchy of features),并具有比其他無監督學習模型更好的效果。而此前使用 cnn 訓練 gans 的嘗試大多以失敗告終。當研究人員修改架構創造出 dcgan,他們能夠看到神經網絡在每一層級學習到的過濾器 。yan lecun 評論道,這打開了 gans 的“黑箱”。

最後,我們來看看在大神 yan lecun 眼裡,gans 為什麼這麼重要:

“它為建立無監督學習模型提供了強有力的算法架構,有望幫助我們為 ai 加入常識(common sense)。我們認為,沿着這條路走下去,有不小的成功機會能開發出更智慧的 ai 。”

【兼職召集令!】

如果你對未來充滿憧憬,喜歡探索改變世界的科技進展,look no further!

我們需要這樣的你:

精通英語,對技術與産品感興趣,關注人工智能學術動态的蘿莉&萌妹子&技術宅;

文字不求妙筆生花,但希望通俗易懂;

在這裡,你會收獲:

一群來自天南地北、志同道合的小夥伴;

前沿學術科技動态,每天為自己充充電;

更高的生活品質,翻翻文章就能掙到零花錢;

有意向的小夥伴們把個人介紹/履歷發至 [email protected],如有作品,歡迎一并附上。

繼續閱讀