【1】 「無中生有」計算機視覺探奇


1. 1)超分辨率重建;2)圖像着色;3)看圖說話;4)人像複原;5)圖像自動生成

2. 生成對抗網絡博弈論中的零和博弈

3. 将GAN用深度卷積神經網絡進行實作(稱作,DCGAN, Deep Convolutional GAN)

基于生成式卷積網絡的最新工作STGConvNet



1.     學習系統和因子圖(基于能量的模型)相結合:“結構化預測”(structured prediction)

2.     深度學習局限:依賴于監督學習,人類标注。需要找到方法,訓練大型神經網絡從沒有經過标注的“原始”資料中,找出現實世界的規律。對抗訓練

3.     生成對抗式網絡,以及現在被提出的一些變體,是深度學習領域過去10年我認為最有意思的idea。

4.     它讓我們可以訓練一個鑒别器,作為一種非監督的“密度估計”(density estimator);這個鑒别器必須要發展出一個好的資料内部表征,鑒别器還可以被當成分類器中的一個特征提取器。

通過對抗性訓練建立的生成/預測模型;


【3】【Ian Goodfellow】生成對抗式網絡創始人Quora答疑

1.      對抗網絡和對抗訓練的聯系和差別

ü  Christian Szegedy 發明了對抗訓練(adversarial training )這種算法包括訓練神經網絡正确分類正常執行個體與「對抗執行個體(adversarial examples )」;《神經網絡的有趣屬性》( Intriguing properties of neural networks)描述了對抗訓練。

ü  我發明了生成式對抗網絡。生成式對抗網絡是成對的網絡,另一個是鑒别器網絡,這篇論文沒有使用術語「對抗訓練」。

ü  我找到了一種更快生成對抗執行個體的方法,這就在對抗訓練的每一步上讓制造一小批新的對抗執行個體變得實際可行,而不是在每個階段隻能制造幾個執行個體。《對抗執行個體的解釋和鞏固》 (Explaining and Harnessing Adversarial Examples),我們首次給它命名為「對抗訓練」

對抗訓練的最初指代:以對抗執行個體來訓練的術語;



2.  圖像生成架構——GAN/VAE/PixelCNN/NICE


ü  比其它模型産生了更好的樣本。

ü  能訓練任何一種生成器網絡;生成對抗式網絡能學習可以僅在與資料接近的細流形(thin manifold)上生成點。

ü  不需要設計遵循任何種類的因式分解的模型, 任何生成器網絡和任何鑒别器都會有用。

3.      與其他生成式模型比較

ü  與 PixelRNN相比,生成一個樣本的運作時間更小。

ü  與VAE相比,它沒有變化的下限。如果鑒别器網絡能完美适合,那麼這個生成器網絡會完美地恢複訓練分布。換句話說,各種對抗式生成網絡會漸進一緻(asymptotically consistent),而 VAE 有一定偏置。

ü  與深度玻爾茲曼機相比,既沒有一個變化的下限,也沒有棘手的分區函數。它的樣本可以一次性生成,而不是通過反複應用馬爾可夫鍊運算器(Markov chain operator)。

ü  與GSN 相比,它的樣本可以一次生成,而不是通過反複應用馬爾可夫鍊運算器。

ü  與NICE 和 Real NVE 相比,在 latent code 的大小上沒有限制。

完善GAN: 解決GAN不收斂(non-convergence)的問題:我們面臨的基本問題是,所有的理論都認為 GAN 應該在納什均衡(Nash equilibrium)上有卓越的表現,但梯度下降隻有在凸函數的情況下才能保證實作納什均衡。當博弈雙方都由神經網絡表示時,在沒有實際達到均衡的情況下,讓它們永遠保持對自己政策的調整是可能的。???

我的興趣在于,設計可以在高維、非凸連續博弈中實作納什均衡( Nash equilibria)的算法。

4.      深度無監督學習的未來

ü  懷疑:因為它會很難知道你要執行什麼樣的任務。

ü  深度無監督學習的未來将成為半監督的學習:

Takeru Miyato 等人的虛拟對抗訓練:

Distributional Smoothing with Virtual Adversarial Training

Virtual Adversarial Training for Semi-Supervised Text Classification

另外還有 Tim Salimans 的帶有特征比對的GAN的半監督學習:

Improved Techniques for Training GANs

5.     機率圖模型的未來:不是互相排斥的


很多新近的神經網絡擁有簡單的圖結構( GANs, VAEs 和 NICE都是二分圖( bipartite graph),讓每個潛變量與每個觀察變量聯系起來;PixelRNNs/MADE/NADE 都是完整的圖,沒有潛變量)。還不是非常結構化

6.      使用批量規範化(Batch Normalization)會不會削弱深度神經網絡的性能

ü  表征能力并不會被影響,因為深度神經網絡的規模和偏移量參數可以學習抵消規範化的影響,是以每一層都具有精确學會和以前一樣的功能集的能力。

ü  有效容量(effective capacity)更為複雜。由批量規範化(Batch Normalization)引入的噪聲具有一種正則化影響,但這可以通過優化工作得到極大的改善。

7.      我喜歡 dropout,因為從單一模型建構指數級大規模集合這種觀點太美妙了。

ü  Dropout基本上是用于正則化(regularization)。

它為神經網絡引入噪聲以迫使神經網絡學會更好的歸納方法以便應付噪聲(這種說法過于簡化了,Dropout 遠不止是在噪聲下的穩健性)。

批規範化基本上是用于改善優化(optimization)。


  當你有一個大型資料集時,較好的優化就很重要了,較好的正則化就沒有那麼重要;是以在大型資料集上,批規範化更重要。你當然也可以同時使用 Dropout 和批規範化——我在我的 GAN 中這麼做過:Improved Techniques for Training GANs


8.      解釋為什麼批規範化具有正則化效應(regularzing effect)

    Batch 形式(batch norm)在某種意義上類似于 dropout ,它在訓練的每一步為每個隐藏單元乘上一個随機值。在這種情況下,該随機值是所有 minibatch 内隐藏單元的标準差。因為不同執行個體在每一步驟是針對minibatch 所包含的東西随機選擇出來的,标準差也是随機浮動。

    Batch norm 也在每一步從隐藏單元減去了一個随機值( minibatch 的均值)。 這兩種噪音的來源意味着每一層必須學會穩健處理輸入的許多變量,就像 dropout 一樣。

基于模型的優化



9. 生成式對抗網絡( GAN)未來

常常用于建構世界模型的 GAN 現在用于強化學習/動作規劃,關于生成機器人運動視訊的論文「通過視訊預測的針對實體互動的無監督式學習( Unsupervised Learning for Physical Interaction through Video Prediction )」

【4】Yoshua Bengio最新兩場講演:表征的深度監督學習與深度生成模型


1.     潛在收益:

ü   利用無數的無标記資料

ü   回答有關觀察變量的新問題

ü   正則化矩陣-遷移學習-領域适應性

ü   更簡單的優化(分而治之)

ü   聯合(結構化的)輸出

2.       潛在因素和無監督表征學習——因果關系。隐藏變量幫助避免次元詛咒。

3.    自編碼的 manifold 與機率解釋

ü   依照歸納原則的降噪評分比對

ü   能量函數梯度的評估

ü   通過馬爾科夫鍊取樣

ü   變分自編碼

²  參數的近似推斷

²  Helmholtz 機的繼任者

²  在對數似然上最大化變分下界

GAN:生成式對抗網絡


卷積 GANs

ALI:Adversarially Learned Inference(VAE & GAN)

5.      神經自回歸模型




6.    循環神經網絡RNN:一個 RNN 網絡能代表一個完全連接配接的直接生成式模型:每一個變量都能從之前全部的變量進行預測。

7.    Pixel RNNs

ü   近似于 NADE 和 RNNs,但卻是 2-D圖像的

ü   驚人的銳利以及現實的生成

ü   準确得到紋理特征,但卻不需要全局結構

【5】谷歌大腦團隊線上答疑,Hinton 壓縮神經網絡進展

深度學習最新領域




重要但尚未被充分研究




3.    ML算法所需學習的例子遠遠大于人類學習è資料使用率低;ML算法所需的資料量高度取決于它要完成的任務

【6】2016 ScaledML會議演講合輯:谷歌Jeff Dean講解TensorFlow &

IIya Sutskever :生成模型的近期進展

【7】IIya Sutskever :生成模型的近期進展

1.  什麼是生成模型?

l  能學習你的資料分布

ü  配置設定高機率給它

ü  學習生成合理的結構

l  探索資料的「真實」結構

2.       傳統的應用:好的生成模型一定會有以下功能:

結構化預測(例如,輸出文本);更強大的預測; 檢測異常;基于模型的強化學習

3.       推測可以加以應用的領域

非常好的特征學習; 在強化學習中探索; 逆向強化學習; 真正實用的對話;「了解這個世界」; 遷移學習

4.       生成模型的三大類:

ü  變化的自動編碼器(VAE)

ü  生成對抗式網絡(GAN)

    一個生成器 G(z)和一個鑒别器 D(x)




ü  自動回歸模型

自動回歸模型


ü  深度生成圖像模型使用一個對抗性網絡的拉普拉斯金字塔(Laplacian pyramid)。— Denton 等人

ü  DCGAN — Radford 等人

難以訓練




7.      改進 GAN 訓練的簡單想法

ü  GAN 無法學習是因為崩潰問題:(collapse problem)


ü  解決方法:鑒别器應該看到整個 mini batch


8.      帶有生成對抗式網絡的半監督學習

ü  鑒别器分辨訓練樣本的類别,也能将真實的樣本從假樣本中辨識出來。

ü  具體方法的完成過程很重要,但是也需要技術,我不做解釋。

ü  這個生成對抗式訓練算法也不同

ü  使用GANs來改進判别模型的新方法

9.      InfoGAN,Xi Chen,Rein Houthooft

解開的表征Disentangled representations


ü  訓練一個GAN

ü  像這樣:它的變量的一個小子集是可從生成的樣本中來精确預測的

ü  直接添加這個限制

10.  Exploration with generative models Rein Houthfootf,Xi Chen


ü  在強化學習中,我采取随機的行動

ü  有時這些行動做的不錯

ü  然後我會在未來做更多這些行動

【8】Hinton預言十年内将研發出具有常識的計算機 08-09 新智元

1.      常識是關于人類世界如何運作的基本知識。它不是建立在規則上的,也不完全合乎邏輯。它是一套啟發式教學法,幾乎所有的人類都能迅速掌握。


【9】LeCun Quora 問答讀後:深度學習走向何方

1.  從統計意義上講,是要估計人體運動所在空間的一個機率分布。這個空間太大,我們用貝葉斯方法和人的先驗知識,控制模型複雜程度。加上BIC這樣的準則,保證在有限資料集上訓練出結果來。

2.       DBN的觀測模型上,觀測模型本質上是要學習從系統内部狀态到外部資料表示的一個映射關系。在Jordan的統計架構下用的最多的是混合高斯,混合高斯其實過分抽象了,表現不了資料樣本的細微分布。

3.  Lecun提到用深度學習和圖模型做結合,DL對狀态到資料的映射關系表現能力更強,用圖模型做reasoning。

4.       對狀态到資料的映射關系表現能力更強, 但是模型參數太多,資料有限,學起來太難。模型參數太多è資料有限,學起來太難;搞條件分布,壓縮下供學習的機率空間;對我的生成資料來說,受計算能力限制,資訊量總是有限的,全random肯定不行,模組化時丢了太多資訊。怎麼把丢的東西找回來,還是得靠知識。

5.     合成怎麼做,真的靠噪聲驅動模型就可以?否。模型表示能力畢竟有限,此外一個非線性動态系統,趨向于混沌,你就算模型全對,時間一長也沒法預期,加限制


1.  對抗 樣本是指将實際樣本略加擾動而構造出的合成樣本,對該樣本,分類器非常容易将其類别判錯,這意味着光滑性假設(相似的樣本應該以很高的機率被判為同一類别)某種程度上被推翻了。Intriguing properties of neural networks, by Christian Szegedy at Google, et al,2014. 這篇論文應該是最早提出對抗樣本概念的。

2.  Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images, by Nguyen A, et al, CVPR 15

3.  kdnuggets上的一篇文章(Deep Learning’s Deep Flaws)’s Deep Flaws, by Zachary Chase Lipton指出,深度學習對于對抗樣本的脆弱性并不是深度學習所獨有的,事實上,這在很多機器學習模型中都普遍存在。

4.  Ian Goodfellow:Deep learning Adversarial Examples – Clarifying Misconceptions

【11】OpenAI 首批研究成果聚焦無監督學習,生成模型如何高


1.       OpenAI 的首批研究結果:在機器學習中提升或使用生成模型。

如何開發出能分析和了解現實世界大量資料的模型和算法?


短期應用:圖像降噪、圖像修複,超分辨率、結構化預測、強化學習中的探索。。。


4.       生成式模型目标:目找到網絡參數θ,使之能夠生成與真實資料分布高度比對的分布。

5.       打造生成模型的三個方法

ü  生成對抗網絡(GAN:Generative Adversarial Networks)

ü  變化自編碼器(VAE: Variational Autoencoders)讓我們可以在機率圖形模型(probabilistic graphical models )的架構中對這一問題進行形式化——我們在資料的對數似然上最大化下限(lower bound)。

ü  而 PixelRNN 這樣的自回歸模型(Autoregressive models)則通過給定的之前的像素(左側或上部)對每個單個像素的條件分布模組化來訓練網絡。

6.      OpenAI近期工作

ü  改進 GAN。缺陷:方案之間振蕩,或生成器有崩潰的傾向。Tim Salimans、Ian Goodfellow、Wojciech Zaremba 及同僚們引入了一些讓 GAN 訓練更穩定的新技術。

ü  為使用 GAN 的半監督學習引入了一種方法,該方法涉及到能産生訓示輸入的标簽的額外輸出的判别器。

ü  Improving VAE。Durk Kingma 和 Tim Salimans 為變分推理(variational inference)的準确度的提升引入了一種靈活的、在計算上可擴充的方法。「逆自回歸流(IAF: inverse autoregressive flow)」

ü  InfoGAN。Peter Chen 和同僚們引入了 InfoGAN——一種可以學習圖像的解開的和可解釋的表征的 GAN 的擴充。無監督的學習到好的、解開的表征(disentangled representations)

ü  強化學習上的研究,也涉及到了一個生成模型元件:Rein Houthooft 及同僚提出了 VIME,一種在生成模型上使用不确定性的實用探索方法。

ü  生成對抗模仿學習(Generative AdversarialImitation Learning)。Jonathan Ho 及同僚呈現了一種用于模仿學習(imitation learning)的新方法。

【11】Generative Adversarial Networks(GAN)的現有工作


1.  梳理GAN一系列論文和論文之間的關系發展軌迹:GAN->CGAN->LAPGAN->DCGAN->GRAN->VAEGAN

2.  Generative Models【VAE & GAN】:

l  VAE将學習的目标變成去盡可能滿足某個預設的先驗分布的性質。(在對數似然上最大化變分下界)這種需要“假設先驗分布”的方式仍然有局限。

l  GAN啟發自博弈論中的納什均衡, 學習過程就變成了一種生成模型(G)和判别模型(D)之間的競争過程

3.  原始GAN. Ian Goodfelow 最小的極小化極大算法問題

GAN 這種競争的方式不再要求一個假設的資料分布,不

用 formulate p(x),而是直接進行 sampling,進而真正達到了理論上可以完全逼近真實資料。

【問題】不需要預先模組化的方式的缺點就是在于它太過自由了,對于較大的圖檔,較多的 pixel的情形,基于簡單 GAN 的方式就不太可控了。在 GAN中,每次學習參數的更新過程,被設為 D 更新 k 回,G 才更新 1 回,也是出于類似的考慮。

4.  Conditional Generative Adversarial Nets(CGAN)

為了解決 GAN 太過自由,給GAN加限制è條件GAN:

在 D 和 G 的模組化中分别加入 conditional 變量 y

5.  另一方面,為了改進 GAN 太自由的問題,還有一個想法就是不要讓 GAN 一次完成全部任務,而是一次生成一部分,分多次生成一張完整的圖檔。(類似于DeepMind的工作DRAW思路:sequential VAE 的模型)。Facebook 等人提出的 LAPGAN[3] 則是采用了這樣的思想,在 GAN 基礎上做出了改進。

在實作 sequential version 的方式上,LAPGAN采用了Laplacian Pyramid 的方式。這個方式主要的操作便是 downsample 和 upsample,而優勢是每次隻考慮樣本和生成圖像之間的殘差的學習效果,某種程度上和 Residual Network 的思想是一樣的。

LAPGAN 其實也是 LAPCGAN,都是 conditional 的;每一步的 GAN 都是independently trained 的。

6.  DCGAN:指出了許多對于 GAN 這種不穩定學習方式重要的架構設計和針對 CNN 這種網絡的特定經驗

開源代碼現在被使用和借鑒的頻率最高,比 LAPGAN 更robust的工程經驗分享:

ü  Strided convolutional networks作為一個可以 fully differentiable 的 generator G,更加可控和穩定。

ü  DCGAN 中則成功将 BN 用在了 G 和 D 上,避免collapse

ü  interpolate space,看出圖像逐漸演變過程

7.  GAN 和 LSTM 結合,稱為 GRAN

改進GAN,可以采用sequential version,好處便是可以讓下一步的 model 利用上一步得到的結果,在之前的結果上做出修改,類似于一種 conditional 的方式:通過變成 sequential versions 來減弱 GAN 的自由性。

ü  因為完美利用了 gradient of convolution 還是 convolution 的性質,這個改造後的GRAN 可以将每次的求導看做一次 decoding 過程,而每次的 convolution 等操作變成encoding 過程,也就可以是以對應到 DRAW 中的 decoder 和 encoder 部分。

ü  GAN 和DRAW 最大的不同之處: GAN 中在計算 loss 時是在 hidden space 中,而 DRAW 是在原始 input space 中。

generative models 的 evaluation:

可以讓兩組 GAN 互相“競争”評價。互為評委,互為選手。


将GAN 中學出來的 feature 重新運用在 VAE 的 reconstruction objective 中,進而結合了 GAN 和 VAE 的優點。

ü  以前的reconstruction objective:element-wise distance Metrics,這種metrics其實對于很多hidden feature/space 的學習并不好

ü  idea 就是利用 GAN 中 Discriminator D,使其當做 learned similarity measure,來替代/彌補reconstruction objective 中的這種 similarity measure component。

ü  GAN + VAE

ü  An autoencoder : leverages learned representations to better measure similarities in data space.

ü  Use learned feature representations in the GAN discriminator as basis for the VAE reconstruction objective.

Wang X, Gupta A. Generative Image Modeling using Style and Structure Adversarial Networks[J]. arXiv preprint arXiv:1603.05631, 2016.

ü  Structure-GAN + Style-GAN

ü  Current generative frameworks: end-to-end learning and generate images bysampling from uniform noise distribution

ü  Basic principle of image formation: (a) Structure: the underlying 3D model; (b) Style: the texture mapped onto structure.

ü  Style and Structure Generative Adversarial Network (S2-GAN)

ü  We now explore whether the representationlearned by the discriminator network in our Style-GAN can be transferredto tasks such as scene classi

cation and object detection.

Chen X, Duan Y, Houthooft R, et al.InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets[J]. arXiv preprint arXiv:1606.03657, 2016.

InfoGAN, an information-theoretic extension to the Generative Adversarial Networkthat is able to learn disentangled representations in a completely unsupervised manner.

Maximizes the mutual information between a small subset of the latent variables and the observation.

Kurakin A, Goodfellow I, Bengio S.Adversarial examples in the physical world[J]. arXiv preprint arXiv:1607.02533, 2016.

ü  Adversarial example

ü  Even in such physical world scenarios, machine learning systems are vulnerable to adversarial examples.

ü  A large fraction of adversarial examples are classified incorrectly even when perceived through the camera

Salimans T, Goodfellow I, Zaremba W, et al.

Improved Techniques for Training GANs[J]. arXiv preprint arXiv:1606.03498, 2016.

ü  A variety of new architectural features and training procedures to GANs framework.

ü  Focus: GANs: semi-supervised learning, and the generation of images that humans find visually realistic.

ü  we achieve state-of-the-art results in semi-supervised classification on MNIST, CIFAR-10 and SVHN

ü  The generated images are of high quality as confirmed by a visual Turing test.

ü  Learn recognizable features of ImageNet classes.

n  Probst M. Generative Adversarial Networks in Estimation of Distribution Algorithms for Combinatorial Optimization[J]. arXiv preprint arXiv:1509.09235, 2015.

We integrate a GAN into an EDA and evaluate the

performance of this system when solving combinatorial optimization problems

with a single objective.

GAN-EDA doe not yield competitive results – the GAN lacks the ability to quickly learn a good

approximation of the probability distribution.

n  Edwards H, Storkey A. Censoring Representations with an Adversary[J]. arXiv preprint arXiv:1511.05897, 2015.

ü  This adversary is trying to predict the relevant sensitive variable from the representation, and so minimizing the performance of the adversary ensures there islittle or no information in the representation about the sensitive variable.

ü  We formulate the adversarial model as a minimax problem, and optimize that minimax objective using a stochastic gradient alternate min-max optimizer.

ü  We demonstrate the ability to provide discriminant free representations, showing statistically significant improvement across most cases.

ü  The flexibility of this method:

²  Removing annotations from images, from separate training examples of annotated and unannotated images, and with no a priori knowledge of the form of annotation provided to the model.

Goodfellow I J. On distinguishability criteria for estimating generative models[J]. arXiv preprint arXiv:1412.6515, 2014.


Generative adversarial networks(GANs) are pairs of generator and discriminator networks, with the generator network learning to generate samples by attempting to fool the discriminator network into believing its samples are real data.

We show a variant of NCE, with a dynamic generator network, is equivalent to maximum likelihood estimation.

However,we show that recovering MLE for a learned generator requires departing

from the distinguishability game. Specifically:

Mallat S. Understanding deep convolutional networks[J]. Phil. Trans. R. Soc. A, 2016, 374(2065): 20150203. Deep convolutional networks provide state-of-the-art classifications and regressions results overmany highdimensional problems. We review their architecture, which scatters data with a cascade of linear filter weights and nonlinearities. A mathematical framework is introduced to analyse their properties.Computations of invariants involve multiscale contractions with wavelets, the linearization of hierarchical symmetries and sparse separations.Applications are discussed.

Li Y, Swersky K, Zemel R.

Generative moment matching networks[C]

//International Conference on Machine Learning. 2015: 1718-1727.

GANs, whose training involves a difficult minimax optimization problem
Gauthier J. Conditional generative adversarial nets for convolutional face generation[J]. Class Project for Stanford CS231N: Convolutional Neural Networks for Visual Recognition, Winter semester, 2014, 2014. CGAN
Yeh R, Chen C, Lim T Y, et al. Semantic Image Inpainting with Perceptual and Contextual Losses[J]. arXiv preprint arXiv:1607.07539, 2016. Raymond Yeh 和 Chen Chen 等人的論文「Semantic Image Inpaintingwith Perceptual and Contextual Losses」中的方法,此論文于 2016年 7月 26日 在 arXiv 上發表。這篇論文示範了如何通過一個 DCGAN用深度學習進行圖像修複。
Koo S. Automatic Colorization with Deep Convolutional Generative Adversarial Networks[J]. DCGAN,自動着色
Kwak H, Zhang B T. Generating Images Part by Part with Composite Generative Adversarial Networks[J]. arXiv preprint arXiv:1607.05387, 2016. RNN/LSTM + GAN + DRAW
Shu R. Stochastic Video Predictionwith Deep Conditional Generative Models[J].

Frame-to-frame stochasticity remains a big challenge for video prediction. The use of feed-forward and recurrent

networks for video prediction often leads to averaging of future states. This effect can be attributed to the networks’ limited ability to model stochasticity. We propose the use of conditional variational autoencoders (CVAE) to model

frame-to-frame transitions. 【使用DCGAN來做viedo prediction?】

Grosse K, Papernot N, Manoharan P, et al. Adversarial Perturbations Against Deep Neural Networks for Malware Classification[J]. arXiv preprint arXiv:1606.04435, 2016.

In this paper, we show how to construct highly-effective adversarial sample crafting attacks for neural networks used

as malware classifiers. The application domain of malware classification introduces additional constraints in the adversarial

sample crafting problem when compared to the computer vision domain:

Categorical generative adversarial networks (or CatGAN) – on synthetic data as well as on challenging image classification tasks


l  Theis L, Oord A, Bethge M. A note on the evaluation of generative models[J]. arXiv preprint arXiv:1511.01844, 2015.

ü  Probabilistic generative models can be used for compression, denoising, inpainting, texture synthesis, semi-supervised learning, unsupervised feature learning, and other tasks.

ü  A lot of heterogeneity exists reviews mostly known but often underappreciated properties relating to the evaluation and interpretation of generative models with a focus on image models.

ü  3 Criteria—average log-likelihood, Parzen window estimates, and visual fidelity of samples

ü  Extrapolation from one criterion to another is not warranted , need to be evaluated directly with respect to the application(s) they were intended for.

ü  Avoid Parzen window estimates should

Harrigan C. Deep Reinforcement Learning with Regularized Convolutional Neural Fitted Q Iteration[J]. differences, 14: 1.

ü  We review the deep reinforcement learning setting, in which an agent receiving high-dimensional input from an environment learns a control policy without supervision using multilayer neural networks.

ü  Regularized Convolutional Neural Fitted Q Iteration (RCNFQ)

ü  Deep Q Network algorithm (Mnih et al) and dropout regularization to improvegeneralization performance.

l  Miyato T, Maeda S, Koyama M, et al.Distributional smoothing with virtual adversarial training[J]. stat, 2015, 1050: 25.

semi-supervised learning

ü  Propose local distributional smoothness (LDS), a new notion of smoothnessforstatistical model that can be used as a regularization term to promote the smoothness of the model distribution.

ü  VAT resembles adversarial training, but it determines the adversarial direction from the model distribution alone without using the label information, making it applicable to semi-supervised learning.

Arild Nøkland.

Improving Back-propagation by Adding an Adversarial Gradient

ü  A common flaw in several machine learning;

Small perturbations added to the input data lead to consistent misclassification of data samples.(對抗樣本???)

ü  Adversarial training has a regularizing effect also in networks with logistic, hyperbolic tangent and rectified linear units.

ü  A simple extension to the back-propagation: adds an adversarial gradient to the training.

ü  The ”adversarial back-propagation” method increases the resistance to adversarial examples and boosts the classification performance.

應用 如何在 TensorFlow 中用深度學習修複圖像?

1.  通過一個 DCGAN 用深度學習圖像修複。

2.  相關:論文「Semantic Image Inpainting

with Perceptual and Contextual Losses」中的方法。

3.  TensorFlow實作

Cate H, Dalvi F, Hussain Z. DeepFace: Face Generation using Deep Learning[J]. 人臉生成
Sauer C, Kaplan R, Lin A. Neural Fill: Content Aware Image Fill with Generative Adversarial Neural Networks[J]. 圖像補全
l  Creswell A, Bharath A A. Adversarial Training For Sketch Retrieval[J]. arXiv preprint arXiv:1607.02748, 2016.

ü  Generative Adversarial Networks (GAN) can learn excellent representations forunlabelled data which have been applied to image generation and scene classification.

ü  Apply to visual search: show that representations learned by GANs can be applied to visual search.

ü  Introduce a novel GAN architecture with design features that makes it suitable forsketch understanding.

Mansimov E, Parisotto E, Ba J L, et al.Generating images from captions with attention[J]. arXiv preprint arXiv:1511.02793, 2015.

Motivated by generative models, we introduce a model that generates images from natural language descriptions.
LAPGAN Conv-Deconv VAE Fully-Conn VAE alignDRAW



LAPGAN Conv-Deconv VAE Fully-Conn VAE alignDRAW

l  Reed S, Akata Z, Yan X, et al.Generative adversarial text to image synthesis[J]. arXiv preprint arXiv:1605.05396, 2016.


ü  Automatic synthesis of realistic images from text

ü  Meanwhile, deep convolutional generative

adversarial networks (GANs) have begun to generate highly compelling images ofspecific categories

ü  we develop a novel deep architecture and GAN formulation to effectively bridge these advances in text and image modeling, translating visual concepts from characters to pixels.

Jianwen Xie, Song-Chun Zhu,Synthesizing

Dynamic Textures and Sounds bySpatial-Temporal Generative ConvNet

Dynamic textures are spatial-temporal processes that.

ü  Modeling and synthesizing dynamic textures using a generative version of the convolution neural network (ConvNet or CNN) that consists of multiple layers of spatial-temporal filters to capture the spatial-temporal patterns in the dynamic textures.

相關文章 Gu J, Wang Z, Kuen J, et al. Recent Advances in Convolutional Neural Networks[J]. arXiv preprint arXiv:1512.07108, 2015.

we provide a broad survey of the recent advances in convolutional neural networks.

Besides, we also introduce some applications of convolutional neural networks in computer vision.

Zhenwen Dai, Andreas Damianou


ü  We develop a scalable deep non-parametric generative model by augmenting deep Gaussian processes with a recognition model. Inference is performed in a novel scalable variational framework where the variational posterior distributions are reparametrized through a multilayer perceptron.

ü  We derive a new formulation of the variational lower bound that allows us to distribute most of the computation in a way that enables to handle datasets of the size of mainstream deep learning tasks.

Collapsed Variational Inference for Sum-Product Networks


ü  Sum-Product Networks (SPNs) are probabilistic inference machines that admit exact inference in linear time in the size of the network.

ü  We propose a novel deterministic collapsed variational inference algorithm for SPNs that is computationally efficient, easy to implement and at the same time allows us to incorporate prior information into the optimization formulation.

Facebook 實驗室FAIR上一系列論文:

n  Denton et al. “Deep Generative Image Models using aLaplacian Pyramid of Adversarial Networks” (NIPS 2015)

n  Radford et al. “Unsupervised Representation Learning withDeep Convolutional Generative Adversarial Networks” (ICLR 2015)

Mathieu et al. "Deep multi-scale video prediction beyondmean square error"


Generative Adversarial Networks(GAN)的現有工作

谷歌大腦(Google Brain)團隊介紹



l  發表我們的成果,詳情查閱:http://research.google.com/pubs/BrainTeam.html

l  以開源項目的形式釋出了我們的核心機器學習研究系統 TensorFlow

l  釋出我們在 TensorFlow 裡面實作的研究模型

l  與谷歌的産品團隊合作,将我們的研究變成真正的産品


       Buildartificial intelligence algorithms and system that learn from experience.






深度監督學習


l  深度監督學習



卷積或者帶有注意力模型的序列到序列(seq2seq with attention)



能學習你的資料分布



探索資料的「真實」結構



ü  Indico 和 DCGANs (與 FAIR 合作)

ü  Quest Visual 和 Word Lens

ü  Nervana 和他們的 CUDA 核

ü  Clarifai 在 2013 年赢得 ImageNet 競賽