雷鋒網 AI 科技評論按,12 月上旬,NeurIPS 2018 在加拿大蒙特利爾會展中心(Palais des Congrès de Montréal)成功舉辦,雷鋒網對此進行了報道。今年的會議在主題活動、投稿論文數量和參會人數上,相比往年都上了一個新台階。NeurIPS 2018 吸引了近九千人參加,最終 1010 篇論文被接收,其中,有四篇論文被評為最佳論文,接收的覆寫了十大研究領域。
看完新論文,别忘舊論文。日前,學術頭條對入選 NeurIPS 2017 的論文在 2017.12 至 2018.12 之間的引用量進行了統計,引用量超過 100 的論文有 19 篇,論文名單如下:

可以看到,引用量排名前三的論文分别是 Attention Is All You Need、Improved Training of Wasserstein GANs 和 Dynamic Routing Between Capsules。此前,雷鋒網(公衆号:雷鋒網)對這幾篇論文也有過解讀,今天,就和大家一起再複習下吧。
Attention Is All You Need
這是谷歌與多倫多大學等高校合作發表的一篇論文,他們提出了一種新的網絡架構——Transformer。Transformer 是完全基于注意力機制(attention mechanism)的網絡架構,放棄了 RNN 和 CNN 模型。
衆所周知,在編碼-解碼架構中,主流的序列傳導模型都是基于 RNN 或者 CNN,其中能完美連接配接編碼器和解碼器的是注意力機制。而谷歌提出的這一新架構 Transformer,則是完全基于注意力機制。
Transformer 用于執行翻譯任務,實驗表明,這一模型表現極好,可并行化,并且大大減少了訓練時間。Transformer 在 WMT 2014 英德翻譯任務上實作了 28.4 BLEU,改善了現有的最佳成績(包括超過 2 個 BLEU 的集合模型),在 WMT 2014 英法翻譯任務中,建立了一個新的單一模式,在八個 GPU 上訓練了 3.5 天後,最好的 BLEU 得分為41.0,這在訓練成本最小的情況下達到了最佳性能。由 Transformer 泛化的模型成功應用于其他任務,例如在大量資料集和有限資料集中訓練英語成分句法解析的任務。
注意力機制是序列模型和傳導模型的結合,在不考慮輸入輸出序列距離的前提下允許模型互相依賴,有時(但是很少的情況),注意力機制會和 RNN 結合。
模型結構如下:
編碼器:編碼器由 6 個完全的層堆棧而成,每一層都有兩個子層。第一個子層是多頭的 self-attention 機制,第二層是一層簡單的前饋網絡全連接配接層。在每一層子層都有 residual 和歸一化。
解碼器:解碼器也是由 6 個完全相同的層堆棧而成,每一層有三個子層,在編碼棧的輸出處作為多頭的 attention 機制。
注意(attention):功能是将 Query 和一組鍵-值對映射到輸出,那麼包括 query、鍵、值及輸出就都成為了向量。輸出是值的權重加和,而權重則是由值對應的 query 和鍵計算而得。
Improved Training of Wasserstein GANs
在該論文中,蒙特利爾大學的研究者對 WGAN 進行改進,提出了一種替代 WGAN 判别器中權重剪枝的方法。
論文摘要
生成對抗網絡(GAN)将生成問題當作兩個對抗網絡的博弈:生成網絡從給定噪聲中産生合成資料,判别網絡分辨生成器的的輸出和真實資料。GAN 可以生成視覺上吸引人的圖檔,但是網絡通常很難訓練。前段時間,Arjovsky 等研究者對 GAN 值函數的收斂性進行了深入的分析,并提出了 Wasserstein GAN(WGAN),利用 Wasserstein 距離産生一個比 Jensen-Shannon 發散值函數有更好的理論上的性質的值函數。但是仍然沒能完全解決 GAN 訓練穩定性的問題。
所做工作:
通過小資料集上的實驗,概述了判别器中的權重剪枝是如何導緻影響穩定性和性能的病态行為的。
提出具有梯度懲罰的 WGAN(WGAN with gradient penalty),進而避免同樣的問題。
展示該方法相比标準 WGAN 擁有更快的收斂速度,并能生成更高品質的樣本。
展示該方法如何提供穩定的 GAN 訓練:幾乎不需要超參數調參,成功訓練多種針對圖檔生成和語言模型的 GAN 架構。
WGAN 的 critic 函數對輸入的梯度相比于 GAN 的更好,是以對生成器的優化更簡單。另外,WGAN 的值函數是與生成樣本的品質相關的,這個性質是 GAN 所沒有的。WGAN 的一個問題是如何高效地在 critic 上應用 Lipschitz 限制,Arjovsky 提出了權重剪枝的方法。但權重剪枝會導緻最優化困難。在權重剪枝限制下,大多數神經網絡架構隻有在學習極其簡單地函數時才能達到 k 地最大梯度範數。是以,通過權重剪枝來實作 k-Lipschitz 限制将會導緻 critic 偏向更簡單的函數。如下圖所示,在小型資料集上,權重剪枝不能捕捉到資料分布的高階矩。
由于在 WGAN 中使用權重剪枝可能會導緻不良結果,研究者考慮在訓練目标上使用 Lipschitz 限制的一種替代方法:一個可微的函數是 1-Lipschitz,當且僅當它的梯度具有小于或等于 1 的範數時。是以,可以直接限制 critic 函數對其輸入的梯度範數。新的 critic 函數為:
使用 GAN 建構語言模型是一項富有挑戰的任務,很大程度上是因為生成器中離散的輸入輸出序列很難進行反向傳播。先前的 GAN 語言模型通常憑借預訓練或者與監督最大似然方法聯合訓練。相比之下,使用該論文的方法,不需采用複雜的通過離散變量反向傳播的方法,也不需要最大似然訓練或 fine-tune 結構。該方法在 Google Billion Word 資料集上訓練了一個字元級的 GAN 語言模型。生成器是一個簡單的 CNN 架構,通過 1D 卷積将 latent vector 轉換為 32 個 one-hot 字元向量的序列。
該文提供了一種訓練 GAN 的穩定的算法,能夠更好的探索哪種架構能夠得到最好的生成模型性能。該方法也打開了使用大規模圖像或語言資料集訓練以得到更強的模型性能的大門。
本論文在github上開源了代碼:github
本論文同時也提供了詳細的數學證明,以及更多的示例,進一步了解請閱讀原論文:Improved Training of Wasserstein GANs
Dynamic Routing Between Capsules
為了避免網絡結構的雜亂無章,Hinton 提出把關注同一個類别或者同一個屬性的神經元打包集合在一起,好像膠囊一樣。在神經網絡工作時,這些膠囊間的通路形成稀疏激活的樹狀結構(整個樹中隻有部分路徑上的膠囊被激活),進而形成了他的 Capsule 理論。Capsule 也就具有更好的解釋性。
Capsule 這樣的網絡結構在符合人們「一次認知多個屬性」的直覺感受的同時,也會帶來另一個直覺的問題,那就是不同的膠囊應該如何訓練、又如何讓網絡自己決定膠囊間的激活關系。Hinton 這篇論文解決的重點問題就是不同膠囊間連接配接權重(路由)的學習。
解決路由問題
首先,每個層中的神經元分組形成不同的膠囊,每個膠囊有一個「活動向量」activity vector,它是這個膠囊對于它關注的類别或者屬性的表征。樹結構中的每個節點就對應着一個活動的膠囊。通過一個疊代路由的過程,每個活動的膠囊都會從高一層網絡中的膠囊中選擇一個,讓它成為自己的母節點。對于高階的視覺系統來說,這樣的疊代過程就很有潛力解決一個物體的部分如何層層組合成整體的問題。
對于實體在網絡中的表征,衆多屬性中有一個屬性比較特殊,那就是它出現的機率(網絡檢測到某一類物體出現的置信度)。一般典型的方式是用一個單獨的、輸出 0 到 1 之間的回歸單元來表示,0 就是沒出現,1 就是出現了。在這篇論文中,Hinton 想用活動向量同時表示一個實體是否出現以及這個實體的屬性。他的做法是用向量不同次元上的值分别表示不同的屬性,然後用整個向量的模表示這個實體出現的機率。為了保證向量的長度,也就是實體出現的機率不超過 1,向量會通過一個非線性計算進行标準化,這樣實體的不同屬性也就實際上展現為了這個向量在高維空間中的方向。
采用這樣的活動向量有一個很大的好處,就是可以幫助低層級的膠囊選擇自己連接配接到哪個高層級的膠囊。具體做法是,一開始低層級的膠囊會給所有高層級的膠囊提供輸入;然後這個低層級的膠囊會把自己的輸出和一個權重矩陣相乘,得到一個預測向量。如果預測向量和某個高層級膠囊的輸出向量的标量積更大,就可以形成從上而下的回報,提高這兩個膠囊間的耦合系數,降低低層級膠囊和其它高層級膠囊間的耦合系數。進行幾次疊代後,貢獻更大的低層級膠囊和接收它的貢獻的高層級膠囊之間的連接配接就會占越來越重要的位置。
在論文作者們看來,這種「一緻性路由」(routing-by-agreement)的方法要比之前最大池化之類隻保留了唯一一個最活躍的特征的路由方法有效得多。
網絡建構
作者們建構了一個簡單的 CapsNet。除最後一層外,網絡的各層都是卷積層,但它們現在都是「膠囊」的層,其中用向量輸出代替了 CNN 的标量特征輸出、用一緻性路由代替了最大池化。與 CNN 類似,更高層的網絡觀察了圖像中更大的範圍,不過由于不再是最大池化,是以位置資訊一直都得到了保留。對于較低的層,空間位置的判斷也隻需要看是哪些膠囊被激活了。
這個網絡中最底層的多元度膠囊結構就展現出了不同的特性,它們起到的作用就像傳統計算機圖形渲染中的不同元素一樣,每一個膠囊關注自己的一部分特征。這和目前的計算機視覺任務中,把圖像中不同空間位置的元素組合起來形成整體了解(或者說圖像中的每個區域都會首先激活整個網絡然後再進行組合)具有截然不同的計算特性。在底層的膠囊之後連接配接了 PrimaryCaps 層和 DigitCaps 層。
膠囊效果的讨論
在論文最後,作者們對膠囊的表現進行了讨論。他們認為,由于膠囊具有分别處理不同屬性的能力,相比于 CNN 可以提高對圖像變換的健壯性,在圖像分割中也會有出色的表現。膠囊基于的「圖像中同一位置至多隻有某個類别的一個實體」的假設也使得膠囊得以使用活動向量這樣的分離式表征方式來記錄某個類别執行個體的各方面屬性,還可以通過矩陣乘法模組化的方式更好地利用空間資訊。不過膠囊的研究也才剛剛開始,他們覺得現在的膠囊至于圖像識别,就像二十一世紀初的 RNN 之于語音識别——研究現在隻是剛剛起步,日後定會大放異彩。
論文全文參見:https://arxiv.org/pdf/1710.09829.pdf
對這三篇論文感興趣的朋友們,可以點選如下位址,檢視更多更詳細的解讀:
谷歌推出基于注意機制的全新翻譯架構,Attention is All You Need!
蒙特利爾大學研究者改進Wasserstein GAN,極大提高GAN訓練穩定性
終于盼來了Hinton的Capsule新論文,它能開啟深度神經網絡的新時代嗎?
雷鋒網版權文章,未經授權禁止轉載。詳情見轉載須知。