AAAI 2020 論文解讀：關于生成模型的那些事

提到生成模型，每個人首先要考慮的問題應該都是這兩個——生成什麼，如何生成。本文介紹的三篇論文就包含了三種生成模型（GNN、RL、VAE，即怎麼生成），同時也介紹了這些生成模型各自目前的應用場景（場景圖生成、序列生成、任務型對話生成，即生成什麼）。

機器學習模型的一種分類方式就是将模型分為分類模型和生成模型，GAN 的出現使得生成模型一度大火，GAN 也開始被應用于各個領域，但是生成模型并不隻是 GAN。除了 GAN 相關的模型，其他的生成模型也是很多人在研究的方向，AAAI 中收錄的 1500 多篇文章中就有 100 多篇直接以「生成」命名的文章。本文對其中一些重要論文進行了解讀。

論文清單：

Probabilistic Graph Neural Network（PGNN）：Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation
Reinforcement Learning（RL）: Sequence Generation with Optimal-Transport-Enhanced Reinforcement Learning
Action Learning: MALA: Cross-Domain Dialogue Generation with Action Learning

1. Probabilistic Graph Neural Network（PGNN）

論文連結：

https://grlearning.github.io/papers/135.pdf

1.1 任務描述

視覺了解是計算機視覺中一個很重要的任務，而過去的幾年中，很多專家将這個問題歸結成圖像分類、對象檢測等任務。然而，了解一個場景并不僅僅是識别場景中的物體，物體之間的互相關系也是很重要的資訊。為了表征這種語義，最近一些論文引入了場景圖（scene graph）的概念，其中的節點表示對象，邊則表示對象之間的關系。這個概念其實源于遊戲，具體的介紹可以自己查一下 Wiki（wiki 對應連結：

https://en.wikipedia.org/wiki/Scene_graph

，很不幸這個介紹的中文版是空的），本身說的是遊戲開發者們在畫面程式設計的時候需要關注的東西，在做 Computer Graph（如 WebGL, OpenGL 等）時，這種關系就是程式員需要程式設計的東西之一，比如一個很簡單的隻有兩個球的場景，哪個球在另一個球的左邊，再或者一個遊戲中如果定義一個騎士和一匹馬之間有邏輯關系，那麼這個騎士就可以被認為是與馬一體的，這些東西都是需要在程式中進行程式設計的。本文的聚焦點就是這種場景圖的生成，在本文中（如圖 1 所示），這種場景圖就也需要包含各個對象之間的關系，比如圖 1 左邊圖中的橘子和蘋果都在碗中，右邊圖中的小女孩是坐在馬上的。

場景圖（Scene Graph）示例（圖源自論文）

1.2 算法概述

為了生成場景圖，過去的方法先是學習了這些邊和節點的表達（嵌入），如 [1] 中通過在 Fixed Complete Graph 中間傳遞資訊以生成場景圖，[2] 則把各個對象看做一個序列，利用雙向 LSTM 擷取各個對象之間的資訊。然後再用這些嵌入來擷取各個節點和邊的類型。但是這些方法并不能利用圖像中豐富的結構資訊，這些資訊在輸入時就包含在了這些圖像輸入中。本文作者基于 [3] 中提出的 Graph Network，進而提出了适合表征 Scene Graph 的 Probabilistic Graph Network（PGN）。在 PGN 中，邊和節點都被表示成了用于 CNN 的特征向量，邊和節點的種類則被表示成機率品質函數（probability mass function，PMF）。

如圖 2 所示，本文作者在建立 PGN 的過程中也使用了 Reinforcement Learning，因為整個 PGN 添加節點的過程是序列化的，而對于這種過程，Markov 是一個很好的決策工具。具體來說，作者首先利用 Deep Q-Learning 架構學習最優排序，進而依次在目前的 partial PGN 上增加新節點，這裡 RL 的動作就是選擇一個新節點，RL 的獎勵 reward 則根據輸入圖像的 ground-truth 場景圖進行定義。添加節點後，通過消息（上下文關系資訊、對象共現資訊和圖檔解釋中的先驗知識）傳遞來更新目前 PGN 的特征向量。然後使用更新的特性對 PMFs 進行微調。

PGN 建立過程（圖源自論文）

1.3 算法細節

如前文所述，Scene Graph 是由 PGN 生成的。是以本節首先介紹了什麼是 PGN，然後對其生成方法 Deep Generative Probabilistic Graph Neural Networks (DG-PGNN) 進行詳細介紹。

Probabilistic Graph Networks：PGN 是基于一個圖（文中為場景圖）G = (V, E) 建成的。其中 V 為節點的集合，E 為邊的集合。假設邊的種類有 K 種，那麼就有 K 個 E_k(k ∈ {1, . . . , K}) 矩陣，每個矩陣中包含了某條邊屬于某個類别的可能性，如 E_k(u, v) 就表示從節點 u 到節點 v 的邊可以表示為 k 的可能性。是以，對于某一條邊 (u, v)，其機率品質函數（probability mass function，PMF）e_{u, v} = [E_1(u, v), . . . , E_K(u, v)]^T。正常來講，PMF 的和應該是為 1，但是本文為了讓邊的可能性更多（不屬于任何一類，也就是不存在；或是有很多種可能），取消了這一限制。同樣的，每個節點也有自己的 PMF 以表征其類别，即 n_v ∈ R^M，其中 v 表示某個節點，M 表示節點種類數。同時，每條邊和節點都由向量表示，節點向量在目标檢測時獲得（文中使用的 faster_rcnn_nas），邊的向量則由邊連接配接的兩個節點合并得到。

Q-Learning：在整個流程開始之前，要先建立一個 Complete PGN（如圖 2 所示），這個 Complete PGN 包含了所有的節點和所有的邊，可以為 Q-Learning 過程提供原始的特征向量和 PMF（用于更新），具體的建立方法在論文的附錄中，有興趣可以自己研究一下。總之，假設目前狀态（某個 Partial PGN）的狀态為 s，那麼 Q-Learning 的輸入是這樣的：

這裡的 g 是整個圖像的特征向量（Complete PGN 建立過程中 152 層 ResNet 的最後一層輸出），置信度矩陣 p = [p(1), ..., p(N)]，p(j) 代表第 j 個框的置信度（目标檢測過程中），d 表示了目前節點的狀态，如 d(v) = 1 則表示節點 v 已經被選擇過，0 則表示其還沒被選擇過。o^n 和 o^e 都是目前 PGN 的特征向量（初始化為 0 向量），h 和 n 則分别為邊向量和節點向量。這裡的\Phi 就記錄了選擇的過程，是以可以發現一些共現現象。如當現在的圖中有了「街道」這個詞，那麼下一步添加的節點就很可能是跟「車」相關的東西。每一步的動作則是在沒有被選擇過的節點中選擇一個添加到圖中，如果圖已經建立完畢了，可以選擇停止。如上文所述，這裡的 reward 根據輸入圖像的 ground-truth 場景圖定義。是以，假設一個動作-狀态對為 (φ, ˆ s, ˆ a, ˆ r, ˆ φˆ0 , sˆ 0 )，則其目标函數為：

其中 r 為目前 reward，A 表示可以選擇的動作，\Phi（ˆ s + v）表示加入節點 v 後的\Phi。是以，參數的更新過程為：

更新：在 Q-Learning 選擇了新的節點加入 PGN 後，首先這個節點與所有其他節點的邊向量、PMF 以及其自己的節點向量都是從原始的 Complete PGN 中擷取，然後通過後續的方法（見原論文附錄）對 PMF、邊向量、節點向量進行更新。

1.4 實驗結果

本文實驗基于 Visual Genome (VG) 資料集，使用 Top-K recall（R@K）作為評價标準，與目前的 SOTA 方法進行了比較，同時也對其本身模型進行了 ablation study，記錄了在不使用 RL（DG-PGNN^o）、不使用圖檔注釋（DG-PGNN^-）、使用 VGG（完整模型使用的 ResNet）提取 feature（DG-PGNN^+）下的實驗結果。實驗結果如表 1 所示。由表中可見，論文中完整 DG-PGNN 的結果幾乎在各個任務中的表現都是最好的。

表 1：實驗結果對比（表源自原論文）

1.5 小結

本篇論文使用了 PGN 來生成 scene graph，其重點主要有兩個，一個是利用了 PGN 生成 scene graph，第二個則是利用 Deep Generative Probabilistic Graph Neural Networks (DG-PGNN) 學習 PGN 的過程。除此之外，這種 DG-PGNN 還可以用在其他需要學習結構的任務中（如知識圖譜的建立等）。

2. Reinforcement Learning

論文連結：

https://pdfs.semanticscholar.org/826d/b2e5f340a90fc9672279f9e921b596aba4b7.pdf

第一篇文章在 PGN 的學習過程中利用了 RL，但是如果在語言生成（序列生成）任務中使用 RL，就會基于最大似然來确定獎勵函數，這時就會出現高差異梯度（high-variance gradients）、獎勵資訊不明（uninformative rewards）和訓練困難（brittle training）等問題，本文的提出就是為了解決了這一問題。

2.1 任務描述

序列生成是 NLP 研究中極其重要的組成部分，序列生成任務包含了很多應用——機器翻譯（Sutskever, Vinyals, and Le, 2014; Cho et al., 2014; Bahdanau, Cho, and Bengio, 2015）、文本摘要（Rush, Chopra, and Weston, 2015; Chopra, Auli, and Rush, 2016）、圖像注釋（Vinyals et al., 2015; Xu et al., 2015）以及風格遷移（Shen et al., 2017; Prabhumoye et al., 2018）等。

2.2 算法概述

在序列生成模型中，常見的方法之一就是使用 Maximum Likelihood Estimation（MLE）。這裡的 MLE 主要是基于自回歸的形式，即最大化已知背景知識（對前面文本進行的編碼）後目前單詞的條件機率，這種做法導緻了暴露偏差（exposure bias）問題，即在訓練階段模型對生成序列的暴露不足，進而導緻測試時長序列的語義一緻性快速降低。是以，很多為了解決這個問題的正則化方法相繼被提出來，RL 就是其中一種，而決定 RL 能否成功的最重要一環就是是否有合适的獎勵函數，這個獎勵函數不管是動态的還是靜态的都有其對應的問題。

為了解決這個問題，本文對 RL 和 OT（Optimal Transport，最優運輸）學習的不同狀态進行分析，進而發現了一種融合了 RL 和 OT 正則化的退火排程學習政策——最優運輸 RL (OTRL)，讓 OT 損失自适應地調節 RL 探索時的政策空間，進而讓訓練過程更加穩定。

2.3 算法細節

如前文所述，本文的算法結合了 RL 和 OT 的優勢，進而提出了 OTRL（Optimal-Transport-Enhanced Reinforcement Learning），是以本節先介紹 RL 如何生成序列，再介紹 OT 如何實作語義比對，最後介紹其融合結果。

RL 如何進行序列生成

前文提到的自回歸式的序列生成模型（如 LSTM，Transformer 等）就是這個任務中的 agent，可以采取的動作則是生成的單詞，政策即是模型的參數，在整個序列生成結束後，系統會給 agent 一個獎勵 r()，這個獎勵函數就是講生成的序列和目标序列（ground-truth）進行對比（使用 BLEU（Papineni et al. (2002)）等方法），此時 RL 算法的損失函數即為：

這裡的 y 是從生成的序列中采樣的，y^*則是 ground-truth，\theta 是指一個特定的政策（一組參數）。為了擷取上述損失函數（不可微時）的梯度，文中利用下式對其梯度進行估計：

為了降低梯度的差異，文中還在上式中加入了基線方程 b()，此時梯度變成了：

OT 如何進行語義比對

簡而言之，OT 就是在最優運輸計劃下計算了兩個分布的移動距離，這裡的最優運輸計劃是可以學習的。本文中，OT 就是要利用嵌入來計算兩個生成序列的距離，進而利用 OT 來擴充 RL 的探索空間。具體來說，作者使用 Gumbel-softmax（為了使模型可微）來将模型的輸出變成對應的序列嵌入，然後就能得到最終的 OT Loss（一個序列）：

這裡的 n 是指生成序列中單詞的數量，m 指 ground-truth 序列中單詞的數量，C_{ij} 指用來計算生成序列中第 i 個單詞和 ground-truth 中第 j 個單詞的嵌入相似度的 Cosine Similarity，T_{ij} 是轉移矩陣，d_i 的定義如下所示：

上述 Loss 可以用 IPOT（Xie et al. (2018),）算法求出最優解，算法流程如下圖所示，具體細節可以去看一下 Xie 提出這個算法的論文。

圖 3：IPOT 算法流程

Optimal-Transport-Enhanced RL（OTRL）

上文提到的兩種方法都有各自的缺點，隻使用 RL 的方法雖然可以擷取長序列的資訊，但是會有很大的梯度差異；而隻使用 OT 的方法雖然解決了梯度問題，目前又隻是适配與 1-gram，這樣很多資訊都會流失，而如果簡單的将其擴充到 k-gram，那麼複雜度會變得極其巨大。是以作者将兩者合并，通過在 RL 中加入 OT 來獲得穩定、全面的模型。此時模型的損失變成了：

這裡的 L_{MLE} 就是最基本的 MLE 的損失函數，三個\lambda 則是超參數。作者首先隻使用最嚴格的損失函數 L_{MLE} 來訓練模型，進而獲得一個較好的起始點，然後開始加入 L_{OT} 使得模型有更大的搜尋空間，最後再加入 L_{RL} 對模型進行 fine tune。

2.4 實驗結果

作者在三個任務上測試了其提出的模型——機器翻譯（資料集為 IWSLT 2014）、文本摘要（資料集為 English gigawords 和 CNN/Dailymail）和圖像注釋（資料集為 COCO），具體實驗結果如下面幾張表所示：

由上面這些表格可見，作者提出的方法在這些任務上的表現基本都比其他算法好

2.5 小結

本文主要是結合了兩種不同的方法的優點，進而互補了對方的缺點，将一些簡單的算法應用到深度學習算法中去，也可以獲得一些很好的效果。

3. Cross-Domain Dialogue Generation

https://arxiv.org/pdf/1912.08442.pdf

前面兩篇論文說的都是使用 RL（或部分利用 RL）進行目标生成的，這篇文章的算法對于隻熟悉 GAN 的研究者來說可能就會感覺更親切一些，因為終于回歸到典型的生成模型——VAE 了。

3.1 任務描述

任務導向的對話系統的主要工作就是在多輪對話中提取出使用者的需求，并完成其需求。過去的方法将整個任務看做一個整體來解決，使用生成模型（Encoder-Decoder）直接将對話映射到對應的回答上，但實際上，這個任務是由兩部分組成的——對話規劃（Dialogue planning）和外部實作（surface realization）。對話規劃是指找到完成使用者的需求的動作（如找到使用者喜歡的食譜或是向使用者推薦餐廳），而外部實作則是指将這些動作變成對話内容，這兩個任務是會互相影響的，在優化動作選擇時會影響到生成的對話的品質，是以直接将這兩步合并成一步是不可行的。

為了解決這個問題，有些論文提出了為每個回答比對一個動作表征，這樣這個任務就被分成了兩步，進而減輕了上述影響。但是目前這些論文主要使用的方式是使用 VAE（Variational AutoEncoder）來擷取低次元的隐變量，進而擷取這種隐動作表征（Latent action），但是如圖 4 所示，(a) 和 (c) 對應的需求是不同的，但是卻獲得了完全一樣的 Latent action。這是因為這種方法隻能擷取這些語料的相似性，并不能深入了解這些語料的含義，是以本文作者希望擷取語義隐動作表征（Semantic latent action），這種表征的主要依據是相同的需求對應的對話走向也應該是相似的，是以也可以獲得相似的表征。

圖 4：VAE 與 Semantic Latent Action 對比（圖源自原論文）

3.2 算法概述

為了完成上述任務，本文提出了一種三段式方法。首先，為了将潛在意圖編碼為語義隐動作，作者将一個損失定義為 VAE 重建的對話是否會像輸入話語一樣引起相似的狀态轉換。為了更有效地區分話語之間的潛在意圖，作者還引入了一種比較兩個系統話語之間結果狀态轉換相似性的正則化。

學習語義潛動作需要對對話狀态進行标注。在許多領域，根本不存在這樣的注釋，因為它們需要大量的人工工作，并且擷取它們的成本很高。作者希望從從狀态注釋豐富的領域域（源域）遷移到到那些沒有狀态注釋的目标域。本文以漸進的方式實作知識轉移，從源域和目标域同時存在的行為開始，如酒店域和景點域都有對價格的詢問，文中将此類操作稱為共享操作，而僅在目标域中存在的操作則稱為特定于域的操作（domain-specific actions）。作者觀察到，具有共享動作的系統話語雖然屬于不同的域，但會導緻相似的狀态轉移，是以本文通過将從上述共享動作中收集到的動作話語對對齊，訓練了一個網絡，通過僅将系統話語的文本作為輸入來預測結果對話狀态轉換的相似性。然後利用相似性預測作為監督，更好地學習具有領域特異性動作的所有話語的語義潛動作。

是以本文主要提出了三步分别是對應有标注資料、無标注資料但可以遷移、專有領域三種情況下的模型訓練方法。

3.3 算法細節

a. VQ-VAE: 本文的模型是基于 VQ-VAE 提出的，隐動作表征就是希望将每句話 x 表征成 z_d(x)，其中 d 表示第 d 個對話。這個表征可以是 one-hot、multi-way categorical 的形式，也可以是連續的。本文中采用了 one-hot 的形式。這種表征是通過 VQ-VAE 獲得的，其基本結構可見圖 5，由一個編碼器 p_E、一個解碼器 p_G 和一個嵌入查詢表 e 組成。首先編碼器 p_E 輸入了一句話 x，進而編碼成 z_e(x)，然後通過下式擷取 z_q(x)（找到嵌入表中跟 z_e(x) 最相近的嵌入），最後通過解碼器将 z_q(x) 重建成原來的輸入。而這個 z_q(x) 就是我們需要的隐動作表征。

這個整體是一起訓練的，其損失函數為：

b. Stage I - Semantic Latent Action Learning:

這一步主要是訓練了一個對話狀态跟蹤模型以确定兩句話是否會導緻相同的對話走向。是以首先要獲得對話的狀态，一個有狀态标注的對話 d_i 就可以表示為：

這裡的 c_t 是第 t 輪之前的聊天記錄，b_t 則記錄了第 t 輪對話的狀态，N_b 表示 state 對的數量，x_t 表示第 t 輪系統回答。本文訓練了一個模型來擷取目前的狀态：

此時損失函數即為（這裡的 h() 為打分函數，這個打分可以由很多種方式或者直接用一個 encoder-decoder 實作）：

擷取了對話的狀态後，作者就利用了兩種方式來衡量提取的語義隐動作表征，一種是系統的回答與 VAE 重建的對話作比較（point-wise，對應的損失為 L_{PT}），另一種是系統與系統之間的比較（pair-wise，對應的損失為 L_{PR}）。整個第一步的流程如圖 5 所示，p_B 就是前面說的狀态跟蹤模型，p_B^{inv} 則是作者為了擷取更完整地資訊而訓練的反向跟蹤模型，對應的損失函數隻要反過來即可，對兩種衡量方式具體計算細節感興趣的可以參考原論文。

圖 5：Stage I 架構圖（圖源自原論文）

是以在第一階段（Stage I）中的總損失為：

\alpha 和\beta 都是超參數，L_{a-e} 就是一開始定義的 VAE 的損失。

c. Stage-II: Action Alignment across Domains

這一步主要是為了在那些沒有狀态标注的領域裡實作上述算法，是以本文提出了一種遷移的方法（如圖 6 所示），其中的模型 P_B、P_G、P_B^{inv}、P_E 使用的都是第一步訓練的模型，一開始隻使用需求相同的對話進行訓練，對模型進行更新。

圖 6：Stage II 架構圖（圖源自原論文）

在上一步中，作者定義 pair-wise 衡量方式為：

在這一步中源域（X^S）和目标域（X^T）的狀态相似度衡量方式變成了（這裡的 s_{fwd} 和 s_{inv} 用的都是一開始在有标注的領域訓練的模型）：

而且為了進行源與目标的對齊，這一步的 VAE 的損失也變成了：

最終這一步的總損失為：

d. Stage-III: Domain-specific Actions Learning

第二階段解決了那些沒有标注但是卻可以遷移的領域的語義潛動作表征的學習，但是對于那些專有領域的動作，第二階段的模型還是不能解決其問題，是以第三階段的模型（如圖 7 所示）被提出來了。

圖 7：Stage III 架構圖（圖源自原論文）

這一步中，由于無法再進行遷移，是以作者沒有再使用前面的狀态追蹤模型，而是從新訓練了一個 Similarity Prediction Network（SPN）來判斷兩句話是否會導緻相同的走向，并使用了新的損失函數（原理差别不大，詳見原論文）。

3.4 實驗結果

本文選取了兩種實驗來展現其算法的先進性——多領域聯合訓練與跨領域生成，并與 (1) KVRN (Eric and Manning 2017); (2) Mem2seq (Madotto, Wu, and Fung 2018); (3) Sequicity (Lei et al. 2018); and two baselines that adopt conditioned generation: (4) LIDM (Wen et al. 2017a); (5) LaRL (Zhao, Xie, and Eskenazi 2019) 等基線進行了比較，同時也對自己的三個階段進行了實驗（MALA-(S1/S2/S3)），實驗結果如下表所示：

從表中可以看出，完整模型（MALA-S3）的效果在兩個實驗中表現都是最好的。

3.5 小結

本文主要貢獻是通過将問題分解的更加精細，更加全面的模型（三段式模型）來對問題進行解決，這應該給各位在研究複雜問題領域的研究者們一種啟示——對問題進行更深層次的剖析，然後分成小問題一步一步進行解決，說不定可以得到更好的結果。

總結

本文的三篇文章主要介紹了三種不同的生成模型，同時也代表了當下很常見的集中創新方式。同時，這些文章中，有些核心概念（如場景圖）是來自于非正常機器學習領域的，這也再一次證明了萬物皆可機器學習的理念。畢竟機器學習是想模仿人類的學習能力，而現在各個領域的知識則是人類學習能力的具象化，多了解一門其他知識，也就多了一個創新的可能。

參考文獻（除四篇主論文）[1] Danfei Xu, Yuke Zhu, Christopher B Choy, and Li Fei-Fei. Scene graph generation by iterative message passing. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, volume 2, 2017.[2] Rowan Zellers, Mark Yatskar, Sam Thomson, and Yejin Choi. Neural motifs: Scene graph parsing with global context. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 5831–5840, 2018.[3] Peter W Battaglia, Jessica B Hamrick, Victor Bapst, Alvaro Sanchez-Gonzalez, Vinicius Zambaldi, Mateusz Malinowski, Andrea Tacchetti, David Raposo, Adam Santoro, Ryan Faulkner, et al. Relational inductive biases, deep learning, and graph networks. arXiv preprint arXiv:1806.01261, 2018.

AAAI 2020 論文解讀：關于生成模型的那些事

1. Probabilistic Graph Neural Network（PGNN）

1.1 任務描述

1.2 算法概述

1.3 算法細節

1.4 實驗結果

1.5 小結

2. Reinforcement Learning

2.1 任務描述

2.2 算法概述

2.3 算法細節

2.5 小結

3. Cross-Domain Dialogue Generation

3.5 小結

繼續閱讀

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

無人機--飛控科普

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

面試題解析：你接口測試是怎麼做的？

hdu7108哈希