Abstract(摘要)

我們提出了一個通過對抗過程來評估生成模型的新架構，其中我們同時訓練兩個模型：捕獲資料分布的生成模型G，以及評估樣本來自訓練資料而不是生成模型G的機率的判别模型D。G的訓練過程是最大化D犯錯誤的機率。該架構對應于極大極小化雙人遊戲。在任意函數G和D的空間中，存在唯一的解決方案，其中G用來逼近訓練資料分布并且達到和G相等，為1/2。在G和D由多層感覺器定義的情況下，整個系統可以用反向傳播進行訓練。在訓練或生成樣本期間不需要任何馬爾科夫鍊或展開的近似推斷網絡。實驗通過對生成的樣本進行定性和定量評估來證明該架構的能力。

1.Introduction(介紹)

深度學習的前景是發現豐富的層次模型，它們表示人工智能應用中遇到的各種資料的機率分布，例如自然圖像，包括語音的音頻波形和自然語言語料庫中的符号。到目前為止，深度學習中最成功的模型是判别模型，通常是将那些高次元、豐富的感官輸入映射到分類标簽的模型。這些驚人的成功主要基于反向傳播和dropout算法，使用具有良好梯度的分段線性單元。深度生成模型的影響較小，因為難以近似在最大似然估計和相關政策中出現的許多難以處理的機率計算，并且由于難以在生成環境中利用分段線性單元的好處。我們提出了一種新的生成模型評估過程，可以避免這些困難。

在提出的對抗性網絡架構中，生成模型與對手進行對抗：對手是一種判别模型，用于學習确定樣本是來自模型分布還是資料分布。生成模型可以被認為類似于造假者團隊，試圖生産虛假貨币并在沒有檢測的情況下使用它，而判别模型類似于警察，試圖檢測僞造貨币。在這個遊戲中的競争促使兩個團隊改進他們的方法，直到假冒品與真正的商品不能被區分。

該架構可以為多種模型和優化算法産生特定的訓練算法。在本文中，我們探讨了生成模型通過多層感覺器傳遞随機噪聲來生成樣本的特殊情況，并且判别模型也是多層感覺器。我們将這種特殊情況稱為對抗性網絡。在這種情況下，我們可以僅使用非常成功的反向傳播和dropout算法來訓練兩個模型，并且僅使用前向傳播通過生成模型來生成樣本。不需要近似推理或馬爾科夫鍊。

2. Related work(相關工作)

具有潛在變量的定向圖形模型的替代方案是具有潛在變量的無向圖形模型，例如受限玻爾茲曼機(RBM)，深玻爾茲曼機(DBM)及其衆多變體。這些模型中的互相作用表示為非标準化勢函數的乘積，通過對随機變量的所有狀态的全局求和/積分進行歸一化。盡管可以通過馬爾科夫鍊蒙特卡洛(MCMC)方法估計，但是這個數量(分區函數)及其梯度對于除了最普通的執行個體之外的所有執行個體都是難以處理的。混合對于依賴MCMC的學習算法提出了一個重要問題。

深度信念網絡(DBN)是包含無向層和多個定向層的混合模型。雖然存在快速近似分層訓練标準，但DBN會引起與無向和定向模型相關的計算困難。

還提出了不接近或限制對數似然的替代标準，例如得分比對和噪聲對比估計(NCE)。這兩者都需要将學習的機率密度指定為歸一化常數。請注意，在許多具有多層潛在變量(例如DBN和DBM)的有趣生成模型中，甚至不可能得到易處理的非标準化機率密度。一些模型，如去噪自動編碼器和壓縮自動編碼器，其學習規則與應用于RBM的分數比對非常相似。在NCE中，與本研究一樣，采用判别訓練标準來拟合生成模型。然而，生成模型本身不是用于拟合單獨的判别模型，而是用于将生成的資料與樣本區分為固定的噪聲分布。因為NCE使用固定的噪聲分布，是以在模型甚至在一小部分觀察變量上學習了大緻正确的分布後，學習速率顯著減慢。

最後，一些技術不涉及明确定義機率分布，而是訓練生成器從所需分布中抽取樣本。這種方法的優點是可以将這種機器設計成通過反向傳播進行訓練。最後在該領域的突出工作包括生成随機網絡(GSN)架構，它擴充了廣義去噪自動編碼器：兩者都可以看作是定義參數化馬爾科夫鍊，即學習機器的參數執行生成馬爾科夫鍊的一步。與GSN相比，對抗性網絡架構不需要馬爾科夫鍊進行采樣。因為對抗網在生成期間不需要回報回路，是以它們能夠更好地利用分段線性單元，這提高了反向傳播的性能，但是當在回報回路中使用時存在無界激活的問題。最近通過反向傳播訓練生成器的例子包括最近關于變分貝葉斯和随機反向傳播的自動編碼工作。

3. Adversarial nets(對抗網絡)

當模型是多層感覺器時，對抗模型架構是最直接的應用。為了學習在資料x上的生成器的分布