天天看點

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

語言模型對于語音識别系統來說,是一個關鍵的組成部分,在機器翻譯中也是如此。近年來,神經網絡模型被認為在性能上要優于經典的 n-gram 語言模型。經典的語言模型會面臨資料稀疏的難題,使得模型很難表征大型的文本,以及長距離的依存性。神經網絡語言模型通過在連續的空間中嵌入詞語的方法,來解決這一難題。目前,語言模組化的最好表現是基于長短記憶網絡(lstm,1997年由hochreiter和schmidhuber提出)的,它能對潛在的任意長期依存進行模組化。

算法模型的突破意義在哪

facebook ai 實驗室的這一研究在發表後吸引了大量的注意力。lstm目前在語言、語音和翻譯等方面有着廣泛的應用,是學術和産業都十分關注的技術,現在忽然出現了一種比它更好的模型,ai 圈内人士怎麼看?

美國卡内基梅隆計算機系博士鄧侃對新智元說:“這是 lstm 的改進版,性能有所提高,但是方法論仍然沿用了 lstm 的既有架構,并沒有本質突破。”

國内語音技術專家賈磊也與新智元分享了他的觀點。他說:“cnn有一個優點,就是通過共享權重由局部到整體,實作對輸入‘whole picture’ 的模組化;而lstm是通過逐幀遞推的方式來模組化整體,而遞推過程中引入“門機制”進行資訊選擇。”

他解釋說:“通俗一點說,cnn更像視覺,天然具有二維整體性;而lstm更像聽覺和語音,總是通過串行的方式來了解整體。facebook的這篇論文恰恰是通過在cnn技術中引入lstm的“門機制”來解決語言順序依存問題,是對傳統cnn技術很大的豐富和完善,文章具有很高的理論價值和實踐意義。但是到目前為止,cnn是否會取代lstm,即全局共享權重連接配接是不是真的能夠完全取代帶有遞推機制和門機制的lstm,形式還并不明朗。特别在一些高時效性的語音識别和語音互動問題上,由于嚴格的時效要求,lstm這種随着時間的延展,逐漸遞推,逐漸遍及信号全貌的技術,還是有一定速度優勢的。”

模型詳情

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

圖 : 用于語言模組化的門卷積網絡架構

統計學意義的語言模型評估的是詞語序列的機率分布。這導緻了傾向于根據正在處理的詞語對下一個詞語出現的機率進行模組化的方法。目前,語言模組化的主要方法都是基于遞歸神經網絡的。facebook ai 研究院 提出了一個卷積的方法,來為語言模組化。他們引入了一個新的門機制(gating mechanism),能夠釋放梯度傳播,同時比oord 等人在2016年提出的 lstm 風格的 gating 性能上要好很多,并且還更加簡單。

門(gating)機制控制着神經網絡中的資訊流動,在1997年時就被 schmidhuber等人證明在遞歸神經網絡中非常有用。lstm通過一個由輸入控制的單獨單元(cell)和forget gates來激活長期記憶,這能讓資訊在多個時間點可以無阻礙地流動。如果沒有這些門的存在,資訊在每一個時間點上的變化可能會導緻消失的情況。相反地,卷積神經網絡并不會存在梯度消失的問題,在實驗中,我們發現,他們并不要求有forget gates。

在論文摘要中,他們寫道:“在wikitext-103上,我們創造了新的記錄。同時,在谷歌 billion word 基準上,我們也獲得了單個 gpu 的最佳表現。在設定中,延遲非常重要,比起遞歸機制的基線,我們的模型獲得了一個次元的加速,因為計算能夠多次并行運作。據我們所知,這是此類的任務中,一個非遞歸性的方法首次在性能上超越了向來強大的遞歸模型。”

測試結果

研究者基于兩個大型資料集——wikitext-103和谷歌 billion word(gbw)進行測試,并與幾個強大的 lstm 和rnn 模型性能進行橫向對比。得到的結果如下:

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

上圖是門卷積神經網絡(gcnn)模型與lstm和rnn 模型在 billion word(gbw)資料集基準上進行測試的結果。在單個gpu的情況下,gcnn的性能做到了最好。并且,據facebook 研究者在論文中介紹,他們使用的 gcnn-13 模型擁有13層神經網絡、每層包含1268個單元,lstm每層擁有1024個單元。在與多gpu 進行對比時,隻有超大型lstm模型在性能上比gcnn好。但是,超大型lstm -2048 (代表層數)使用了32個gpu,訓練時間為3周,gcnn隻使用1個gpu,訓練時間1周。

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

 另一個橫向對比是在wikitext-103 上進行的,這個語言模組化資料庫包含了超過1億個從wikepedia 上被标注為good 或者featured的文章中提取的字元(tokens),另外,資料庫中還包含了20萬個單詞的詞彙表。

在這個資料集進行測試時,輸入的序列是一篇完整的wikipedia 文章,而不僅僅是一句話。上圖的結果表明。gcnn 模型在這個問題上的性能也比lstm要好得多。

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

上圖是wikitext-103(左)和 google billion word (右) 的在不同激活機制模型下的學習曲線。可以看到,門線性單元(glu,圖中紅線)在實作向更低的複雜性轉換的過程是最快的。

被超越的 lstm

lstm 和遞歸神經網絡能捕捉長期的依存性,在被提出後便以席卷之勢迅速成為自然語言處理的奠基石。lstm可以記憶不定時間長度的數值,區塊中有一個gate能夠決定input是否重要到能被記住及能不能被輸出output。

首次超越LSTM : Facebook 門卷積網絡新模型能否取代遞歸模型?

lstm 模型的基本架構,其中中間四個互相互動的層,是整個模型的核心

此外,由于lstm 适用于處理和預測時間序列中間隔和延遲非常長的重要事件。因而在自然語言了解(nlu)上有着重要作用。

lstm 目前在行業内有着廣泛的應用,範圍包括但不限于:不分段連續手寫識别上、自主語音識别、機器翻譯等等。作為非線性模型,lstm可作為複雜的非線性單元用于構造更大型深度神經網絡。

2009年,用lstm建構的人工神經網絡模型赢得過icdar手寫識别比賽冠軍。lstm還普遍用于自主語音識别,2013年運用 timit 自然演講資料庫達成17.7%錯誤率的紀錄。 

研究者的自我評價

在論文的最後,研究者總結說,我們(facebook)釋出了一個卷積的神經網絡,使用一個新的門機制來為語言模組化。與遞歸神經網絡相比,我們的方法建立了一個輸入詞語的層級表征,讓它可以更好地捕獲長距離的依存性(dependencies),這和語言學中文法形式體系中的樹結構分析的思路很像。由于特征通過的是固定數量的神經網絡層,并且是非線性的,這種相似的屬性夠産生學習。這和遞歸神經網不同,遞歸神經網絡中,處理步驟的數量根據詞在輸入中的位置會有所不同。

結果顯示,我們的門卷積神經網絡在wikitext-103 上打破了記錄,在更大型的谷歌billion word 基準中,單一gpu上的模型訓練表現也優于其他幾個強大的 lstm 模型。

不談取代,我們談談優化

正如上文中專家的分析,在語言模組化上,現在卷積神經網絡和遞歸神經網絡各自有不同優勢。雖然在這一研究中卷積神經網絡在性能上表現出了對遞歸神經網絡,尤其是lstm的全面超越,但是,現在談取代還為時尚早。

算法模型的演進是不斷優化的漸進過程,facebook帶來了一種新的思路,并且在研究中進行了驗證,究其意義,正如作者在論文中介紹的那樣:一個非遞歸性的方法首次在性能上超越了向來強大的遞歸模型。但是,算法模型到底隻是工具,并不存在真正的“取代”之争。對于實際應用來說,還是要看效果。該模型對于整個産業應用的意義,目前來看還有待驗證,畢竟lstm現在已經得到了廣泛的應用,并且效果還不錯。

繼續閱讀