人工智能領域的國際頂級會議AAAI 2019将于1月27日至2月1日在美國夏威夷舉行。根據已經公布的論文錄取結果,今年的大會錄取率創曆史新低,投稿數量高達7745篇,錄取的數量僅有16%左右。但在被錄取的論文中,來自微軟亞洲研究院的卻有27篇之多,包括了機器學習、自然語言處理(NLP)、計算機視覺和圖形學等多個領域。本文将詳細介紹這三個領域中來自微軟亞洲研究院的那些硬核論文。
機器學習
非自回歸機器翻譯模型的兩種優化新方式
2018年,非自回歸(Non-Autoregressive)機器翻譯模型引起了衆多研究人員的興趣。非自回歸模型打破了翻譯過程順序性,将原來自回歸機器翻譯的逐詞順序生成轉變為一次性産生所有目标端單詞,極大地提升了機器翻譯速度。然而,随着順序依賴關系的打破,非自回歸模型的翻譯準确率卻遠遠不及自回歸機器翻譯模型;同時,漏翻譯和重複翻譯也将翻譯品質大打折扣。微軟亞洲研究院分别通過以下兩篇論文提出了針對上述兩個問題的解決方法。
代表論文:Non-Autoregressive Neural Machine Translation with Enhanced Decoder Input
論文連結:
www.slidestalk.com/s/Non_Autor…
在該論文中,研究員提出了兩種方法來提升解碼器的輸入品質,減少翻譯精度的損失。如下圖所示:第一種方法(Phrase-Table Lookup)直接利用詞表将源語言查表翻譯成目智語言并輸入到解碼器,第二種方法(Embedding Mapping)通過詞級别的對抗學習以及句子級别的對齊資訊,将源語言的詞向量對齊到目智語言的詞向量,作為解碼器的輸入。
通過在WMT14 En-De/De-En、WMT16 En-Ro、IWSLT14 De-En一共4個翻譯語言上的實驗,相比基線模型(NART),這種方法達到了3~5個BLEU 分的提升,相比先前最好的工作(IR-NAT)有1~5個BLEU分的提升。
該模型翻譯精度更加接近AT模型,在WMT16 En-Ro資料集上,相比AT模型(Transformer)僅有1個BLEU分的差距。在翻譯速度方面,相比AT模型(Transformer)最高有25倍的翻譯速度提升;相比NAT模型(LT、NART、IR-NAT)也有速度上的提升。
同時這兩種方法各有優勢,Phrase-Table Lookup在資料品質比較好的WMT14 De-En以及IWSLT De-En資料集上優勢明顯,因為能基于訓練集得到高品質的詞典,而在WMT14 En-De以及WMT16 En-Ro上,得到的詞典品質較差,是以Embedding Mapping更能顯現出優勢。
代表論文:Non-Autoregressive Machine Translation with Auxiliary Regularization
論文連結:
taoqin.github.io/papers/nat.…
對于非自回歸模型的重複翻譯和漏翻譯的問題,該論文提出了基于輔助限制(Auxiliary Regularization)的非自回歸翻譯模型,如下圖。
重複翻譯的産生代表解碼器端相鄰位置的隐層表示(Hidden Representation)有着極大的相似性,進而解碼産生同樣的翻譯單詞。為此,研究員提出了相似性限制(Similarity Regularization)來限制兩個相鄰位置的隐層表示向量之間的關系:
其中s_cos代表兩個向量之間的餘弦距離。H_t代表解碼器第t個位置的隐層狀态向量,y_t代表第t個位置的目标單詞的單詞嵌入(embedding)向量。L_sim的意義在于,如果相鄰兩個位置(t和t+1)的目标單詞語義接近(s_cos很大 ),那麼h_t和h_(t+1)也應該很接近,反之亦然。
對于漏翻譯,可以重建限制(Reconstruction Regularization),在非自回歸模型的頂部添加一個反方向的自回歸翻譯模型,進而要求解碼器的隐層向量在該反方向的模型中重建源端句子。通過這一限制,強制要求非自回歸模型的翻譯含有所有資訊以克服漏翻譯的問題。
通過在多個資料集上與各個基線算法進行了性能的對比,包括對于翻譯品質和翻譯速度的衡量。NAT-REG算法不僅具有良好的性能,在翻譯速度(上圖最後兩列)也有了顯著的提升。通過這兩項限制項,非自回歸機器翻譯模型的重複翻譯和漏翻譯的現象得到了極大的緩解。
深度神經網絡模型的泛化及對泛化誤差的刻畫
在機器學習領域,了解深度神經網絡模型的泛化性質以及刻畫其泛化誤差是一個熱點,論文“Capacity Control of ReLU Neural Networks by Basis-path Norm”論述了這一理論研究。
代表論文:Capacity Control of ReLU Neural Networks by Basis-path Norm
論文連結:
www.slidestalk.com/s/Capacity_…
ReLU神經網絡具有正伸縮不變性,即一個隐節點的所有入邊乘以一個正常數c, 同時所有出邊除以一個正常數c, ReLU神經網絡的輸出值不變。是以,一個恰當的與神經網絡泛化性質有關的度量,應該也具有正伸縮不變性。基于ReLU神經網絡的路徑的度量也滿足該性質。
對于神經網絡的路徑(path),将ReLU神經網絡看做一個有向無環圖,一條路徑p即為輸入節點至輸出節點的一條通路,路徑的值v(p) 被定義為其所經過的參數的乘積。那麼ReLU神經網絡的第k維輸出可以表示為:
, 其中P_(i→k)表示連接配接第i個輸入節以及第k個輸出節點的所有路徑的集合;a(p;x)取值為1或0,分别代表該路徑的值在經過多層激活函數作用後是否流入輸出。
路徑p_(i,j)的值等于w_(1,i)⋅w_(2,j), 那麼路徑之間互相關聯,例如v(p_(2,2) )=(v(p_(1,2) )⋅v(p_(2,1) ))/v(p_(1,1) ) 。
Path-norm被定義為所有路徑值的L2-範數,其被證明與ReLU神經網絡的泛化能力緊密相關。然而,神經網絡所有路徑值是相關聯的(如上圖),這會使得當Path-norm作為限制加入優化算法中時,無法求解出閉式的更新法則。有工作通過研究路徑值之間的關系,在所有路徑值中找到了一組互不相關的路徑,稱為基路徑,并且其餘路徑均可通過基路徑的值進行計算。
這一論文提出了一個基于基路徑的度量。首先,基路徑可以分為兩類,一類的值在表達非基路徑時出現在分子,第二類的值在表達非基路徑時出現在分母。于是,出現在分母的基路徑值不能過大或過小。是以,限制前者的值靠近0,後者的值靠近1,受此啟發,研究員提出了一個僅基于基路徑的度量:BP-norm。
定義1: (BP-norm) 對于任意的路徑值向量
BP-norm定義如下:
,其中
根據BP-norm, 可得如下泛化誤差的上界。
定理 1: 至少以機率 1-δ, 泛化誤差 (測試誤差 – 訓練誤差) of hypothesis space F can be upper bounded as
其中 Φ(u;d,H,L)=(e^2u+d⋅u^2 ) (1+H⋅u^2⋅e^2u )^(L-2) (4H)^L, d表示輸入次元, H表示網絡的寬度, L表示網絡的深度。
将BP-norm作為正則項加入損失函數,并用SGD和G-SGD來優化BP正則損失函數。下表展示了算法在圖像分類任務上的訓練誤差、測試誤差和泛化誤差,其中Δ反映了泛化誤差的大小。結果表明BP正則算法可以有效地降低模型複雜度,進而取得更小的泛化誤差。
自然語言處理
AI也可以自動發彈幕了
彈幕,已經成為人們看視訊的一種習慣;不同使用者之間的彈幕往往會形成上下文回複關系,更讓彈幕成為一種新的社交模式。基于這一現象,微軟亞洲研究院設計了一款名為LiveBot的自動彈幕生成系統。在這一系統中需要克服兩個難點:一是要充分了解視訊内容,根據其他使用者的評論彈幕生成适當的内容;二是要在合适的時間點顯示在對應的視訊幀之上。
代表論文:LiveBot: Generating Live Video Comments Based on Visual and Textual Contexts
論文連結:www.slidestalk.com/s/LiveBot
該論文論述了兩種深度神經網絡模型,基于視訊和文本的上下文資訊來生成彈幕,并建構了一個包含2,361個視訊和895,929條彈幕的大規模訓練資料集來驗證模型的有效性。
實驗結果表明,LiveBot能夠準确地學習到真實使用者在觀看視訊時進行彈幕評論的行為特點,有效地進行了視訊内容的了解和使用者評論的互動,同時在客觀評價名額上也取得優異的成績。
無監督機器翻譯的最新性能提升
最近一年,無監督機器翻譯逐漸成為機器翻譯界的一個研究熱點。在無監督場景下,神經機器翻譯模型主要通過聯合訓練(joint training)或交替回譯(iterative back-translation)進行逐漸疊代。但是由于缺乏有效的監督信号,回譯得到的僞訓練資料中會包含大量的噪音,這些噪音在疊代的過程中,會被神經機器翻譯模型強大的模式比對能力放大,進而損害模型最終的翻譯性能。
代表論文:Unsupervised Neural Machine Translation with SMT as Posterior Regularization
論文連結:
www.slidestalk.com/s/Unsupervi…
該論文采用了後驗正則(Posterior Regularization)的方式将SMT(統計機器翻譯)引入到無監督NMT的訓練過程中,并通過EM過程交替優化SMT和NMT模型,使得無監督NMT疊代過程中的噪音能夠被有效去除,同時NMT模型也彌補了SMT模型在句子流暢性方面的不足。
該方法的整體結構大緻分為兩部分,如上圖所示。左邊是模型初始化,通過單語資料訓練出兩種語言(如英語和法語)的詞向量(word embedding),之後通過無監督的訓練方法得到cross-lingual embedding,并通過計算其餘弦相似度得到初始的詞到詞的翻譯機率表(word translation table)。這個翻譯機率表連同由單語訓練得到的語言模型(language model)作為初始的SMT模型的特性,進而完成了模型初始化。
上圖右邊是方法的主體部分,初始的SMT模型翻譯一批單語資料,構成的僞資料作為初始NMT模型的訓練資料。在訓練得到初始的NMT模型後,将繼續進行交替回譯(右下,iterative back-translation NMT),并用收斂的NMT模型翻譯出一批新的僞資料。此時産生的僞資料含有大量的噪音,可以通過這批僞資料訓練新的SMT模型(右上,SMT as PR)。SMT模型通過構造品質更高的基于片段的翻譯機率表(phrase translation table),将僞資料中的噪音過濾掉,并通過翻譯新的一批單語資料,得到互譯性更好的一批僞資料。這一批僞資料便可以用于調整(fine-tune)之前的NMT模型,之後NMT模型再次進行交替回譯。我們将訓練NMT和SMT的過程內建在一個EM訓練架構中,兩個過程進行互動疊代直到最終收斂。
在英法(en-fr)和英德(en-de)語言對上進行的實驗中,這一方法明顯優于以前的方法,顯著提高了無監督機器翻譯的性能。
新型TTS:結合了Tacotron2和Transformer的優點
人機互動中有項重要的任務,即文本合成語音(Text to speech,TTS),以達到合成清晰自然且接近真人錄音的音頻。
在過去的幾十年裡,基于拼接的模型(concatenative model)和基于參數的模型(parametric model)是TTS領域的兩大主流;然而,兩者都有着非常複雜的流水線,而且挑選有效的聲學特征通常是非常耗時且與語言密切相關的。除此之外,這兩種方法合成的音頻不流暢,而且在韻律和發音上與真人錄音都有較大的差距。
随着神經網絡的興起,一些端到端(end to end)的TTS模型逐漸出現,如Tacotron和Tacotron2,使得合成的音頻品質有了非常大的進步,甚至在某些特定的資料集上與真人錄音不相上下。這種端到端的TTS模型主要有兩部分:編碼器和解碼器。編碼器負責将文本映射到語義空間(semantic space)中,生成一個隐狀态序列;接着由解碼器(通常是一個基于RNN的神經網絡)配合注意力機制(attention mechanism)将這個隐狀态序列解碼成頻譜。
然而,在RNN中,每一個隐狀态的生成都要基于之前所有的隐狀态以及目前時刻的輸入;是以模型隻能串行地進行計算,限制了網絡的并行計算能力,進而降低了運算效率。并且RNN難以對距離較遠的兩個輸入建立直接的依賴關系。而最近流行的自關注網絡(Transformer)在訓練中可以實作并行計算,而且有能力在輸入序列的任意兩個token之間建立起直接的依賴。
代表論文:Neural Speech Synthesis with Transformer Network
論文連結:
www.slidestalk.com/s/Close_to_…
該論文中結合了Tacotron2和Transformer的優點,提出了新的TTS模型:通過使用多頭注意力(multi-head attention)機制代替了原本Tacotron2中的RNN以及編碼器和解碼器之間的attention。這樣,一方面通過自注意力(self attention) 機制,網絡可以并行計算,進而使訓練效率達到了原來的4倍;同時,任意兩個輸入之間可以建立起直接的長距離依賴。另一方面,多頭的注意力機制可以從多個角度對輸入資訊進行整合。
如上圖,在Tacotron2的基礎上,使用Transformer的encoder和decoder分别代替原有的雙向RNN編碼器和雙層RNN解碼器;另一方面原始的注意力機制被多頭注意力機制取代進而能更好地對輸入資訊進行特征提取;除此之外我們還對其它的網絡結構,如positional encoding進行了調整。在該模型中,由于有自注意力機制的存在,可以更好地建立長距離依賴,進而能對包括韻律在内的音頻特征進行更好的模組化。
在MOS測試(滿分5分)中, Tacotron2和Transformer TTS model均能夠得到很接近真實的人聲錄音(即ground truth)的得分。在CMOS測試中(成對比較,得分[-3,3]分),我們的方法相比Tacotron2能夠得到顯著的性能提升。
另一方面,對比Transformer TTS model和Tacotron2合成的mel譜,可以發現,在低頻部分二者相近,都表現出了很強的能力;在高頻部分,Transformer TTS model能更好地還原頻譜的紋理,進而使合成的音頻有更高的品質。
基于改寫的複述生成模型更高效
代表論文:Dictionary-Guided Editing Networks for Paraphrase Generation
論文連結:
www.slidestalk.com/s/Dictionar…
在自然語言進行中,句子複述應用很廣泛,例如被應用在資訊檢索、自動文摘、句子翻譯等任務。句子複述(Paraphrase)是指換一種方式表達原句,同時要與原句意思相同。人在完成句子複述的時候,往往會使用同義詞替換句子中的一些詞語,然後對替換後的句子進行簡單的修改。
以此為出發點,該論文提出了基于改寫網絡的複述生成模型。複述生成模型首先使用原句進行檢索,得到一組詞語級别的複述對;然後将檢索得到的複述對進行編碼,得到一組固定長度的向量;最後基于改寫網絡完成句子的複述。
上圖所示,複述生成模型建立在序列到序列模型(Seq2Seq)的架構下,進行解碼的過程中,采用了注意力機制(attention mechanism),對檢索得到的複述對進行權重組合,将權重之後的結果用于解碼器。如模型在解碼到overcome的時候,會更加側重于使用(overcome,get rid of)這樣的複述對。通過注意力機制讓模型自己學習如何進行改寫,在哪些地方需要進行替換和調整。
通過在MSCOCO和Quora兩個公開資料集上實驗,如上圖所示,基于改寫網絡的複述生成模型在MSCOCO資料集上取得了最好的實驗結果,在Quora資料集上,在貪婪搜尋的條件下取得了最好的結果。
另外,通過分析實驗結果顯示,如上圖,在生成的複述中,機器會基于檢索得到的複述對進行改寫和替換,采用這種方式既保證了複述結果與原句的差別,同時又不會改變原意。
計算機視覺
MonoGRNet:單張圖像估測物體三維位置
在圖像中,傳統的物體定位或檢測估計二維邊界框,可以框住屬于圖像平面上物體的可見部分。但是,這種檢測結果無法在真實的3D世界中提供場景了解的幾何感覺,這對很多應用的意義并不大。
代表論文:MonoGRNet:A Geometric Reasoning Network for Monocular 3D Object Localization
論文連結:www.slidestalk.com/s/MonoGRNet
該論文提出了使用MonoGRNet,從單目RGB圖像中通過幾何推斷,在已觀察到的二維投影平面和在未觀察到的深度次元中定位物體非模态三維邊界框(Amodal Bounding Box, ABBox-3D),即實作了由二維視訊确定物體的三維位置。
MonoGRNet的主要思想是将3D定位問題解耦為幾個漸進式子任務,這些子任務可以使用單目RGB資料來解決。網絡從感覺2D圖像平面中的語義開始,然後在3D空間中執行幾何推理。這裡需要克服一個具有挑戰性的問題是,在不計算像素級深度圖的情況下準确估計執行個體3D中心的深度。該論文提出了一種新的個體級深度估計(Instance Depth Estimation, IDE)子產品,該子產品探索深度特征映射的大型感覺域以捕獲粗略的執行個體深度,然後聯合更高分辨率的早期特征以優化IDE。
為了同時檢索水準和垂直位置,首先要預測3D中心的2D投影。結合IDE,然後将投影中心拉伸到真實3D空間以獲得最終的3D對象位置。所有元件都內建到端到端網絡MonoGRNet中,其中有三個3D推理分支,如下圖。最後通過聯合的幾何損失函數進行優化,最大限度地減少3D邊界在整體背景下的邊界框的差異。
MonoGRNet由四個子網絡組成,用于2D檢測(棕色),個體深度估計(綠色),3D位置估計(藍色)和局部角落回歸(黃色)。在檢測到的2D邊界框的引導下,網絡首先估計3D框中心的深度和2D投影以獲得全局3D位置,然後在本地環境中回歸各個角坐标。最終的3D邊界框基于估計的3D位置和局部角落在全局環境中以端到端的方式進行優化。
根據對具有挑戰性的KITTI資料集的實驗表明,該網絡在3D物體定位方面優于最先進的單眼方法,且推理時間最短。
3D檢測性能,KITTI驗證集上的3D邊界框的平均精度和 每張圖像的推理時間。注意不比較基于Stereo的方法3DOP,列出以供參考。
MVPNet:單張圖像重建物體三維模型
在相同的圖像中,由于形狀、紋理,照明和相機配置的不同,若想從單幅RGB圖像重建三維物體,這是一個強不适定的問題。但深度學習模型讓我們重新定義這個任務,即從一個特定的分布生成實際樣本。深度卷積神經網絡得益于規則的表達形式、資料采樣密度高、權重共享等等。
三角網格(triangular mesh)是表面(surface)的主要表示形式,但它的不規則結構不易編碼和解碼;大多數現存的深網使用三維體素網格(3D volumetric grid),但是稠密采樣計算複雜性高;最近的一些方法提倡無序點雲表示,但無序屬性需要額外的計算才能為點對點建立一一對應的映射,這各高代價的映射算法,通常會使用較少的點來表示,進而産生稀疏的表面。
代表論文:MVPNet: Multi-View Point Regression Networks for 3D Object Reconstruction from A Single Image
論文連結:www.slidestalk.com/s/MVPNet
為了描繪稠密的表面,該論文引入了一種有效的基于多視圖(multi-view)的表現形式,通過用多個視點可見的稠密點雲并集來表示表面,配置設定視點時覆寫盡量多的表面。
(a)MVPC表示。1-VPC中的每個像素都存儲來自該像素的反投影表面點(x,y,z)及其可見性v 。存儲的三維點根據圖像平面上的二維網格進行三角化,此圖顯示網格三角形的法線以訓示表面的方向。(b)給定RGB圖像,MVPNet生成一組1-VPC,它們的聯合形成了預測的MVPC。幾何損失函數用來測量預測和真實的MVPC。
上圖描繪了多視圖點雲(MVPC)。每個點雲存儲在嵌入視圖像平面中的二維網格中。單視點雲(1-VPC)看起來像深度圖,但每個像素存儲三維坐标和可見性資訊,而不是來自該像素的反投影表面點的深度。反投影變換提供了1-VPC中具有相等錄影機參數的點集的一對一映射。同時,該論文從二維網格引入三維點的局部連通性,促使基于這些反投影點形成三角形網格表面。至此,表面重建問題被轉化為回歸存儲在MVPC中的三維坐标和可見性資訊。
通過使用編碼器-解碼器網絡作為條件采樣器來生成MVPC,上圖(b)所示。編碼器提取圖像特征并分别将它們與不同的視點特征組合。解碼器由多個權重共享分支組成,每個分支生成一個視圖相關的點雲。所有1-VPC的聯合構成了最終的MVPC,如下圖。
給定輸入圖像I,由編碼器和解碼器組成的MVPNet對N個視點c _i的1-VPC進行回歸。 N個特征(z,c_i)被饋送到解碼器的N個分支中,其中分支共享權重。
這裡提出了一種新穎的幾何損失函數,如下圖,來衡量真實三維表面與二維平面相比的差異。與先前基于視圖的方法不同,他們間接計算二維投影空間(即圖像平面)中的特征而且忽略了由于從三維到二維的降維而導緻的資訊損失,這裡MVPC允許我們在構造的三角形網格上作離散表面變化的積分,即直接計算了三維表面。幾何損失函數整合了三維體積變化,預測置信度和多視圖一緻性,大大提高了三維重建的精确度。
損失函數 (a)1-VPC的逐點距離 (b)準量三維體積差異 (c)多視圖一緻性
下圖展示了在公共資料集ShapeNet和真實圖像的結果,可見這個方法可以生成稠密的三維表面。另外,使用兩個學到的特征作線性內插補點後再用解碼器生成的三維重模組化型,MVPNet學到的特征空間具有較好的表達性和連續性。
ShapeNet資料集結果比較
真實圖像三維重建結果
學習到的特征線性插值生成的三維重建結果
更多專題位址:www.slidestalk.com/series
原專題下載下傳www.slidestalk.com/x/3807/AAAL…