天天看點

深度學習零基礎進階第四彈!|幹貨分享

深度學習零基礎進階第四彈!|幹貨分享

編者按:時隔一段時間,雷鋒網獨家奉送的深度學習零基礎進階第四彈又來了!經過前面三篇文章的研究和學習,相信大家在深度學習的方式與深度學習在不同領域的運用都有了一定的了解。而本次雷鋒網(公衆号:雷鋒網)所推薦的論文,主要集中于自然語言處理層面,相對于此前比較枯燥的理論階段,相信以下的内容會更能讓初學者們有的放矢。原文首發于 github,作者 songrotek,文章名為《deep-learning-papers-reading-roadmap》,雷鋒網對每篇論文都增加了補充介紹,未經許可不得轉載。

開放性文本的語義解析主要是通過推斷相應的含義(meaning representation, mr), 以了解在自然語言中的任意聲明。但可惜的是,目前的大規模系統由于缺少直接的可監督資料,并不能實作深度學習。而在《joint learning of words and meaning representations for open-text semantic parsing》一文中,作者 antoine bordes 采用了一本超過 70000 詞,能映射超過 40000 個實體的字典作為文本樣本,通過知識庫的建立從未經處理的文本裡進行語義的了解學習。在一個多任務訓練模式中,實體及 mr 能夠對不同來源的資料進行處理。是以,該系統能夠最終将單詞與所代表的含義在開放性文本中建立聯系。

《distributed representations of words and phrases and their compositionality》一文是谷歌研究院在 2013 年的一個語言分析成果,主要介紹的是單詞及短語的分布式以及它們的組成性。團隊引入了一個名為「skip-gram」的語言處理模型,它能有效地捕獲大量的精确文法和語義關系。而他們在研究中提高了矢量和訓練的速度及品質,并提出了一個名為「負采樣」(negative sampling)的研究模式。詞語之間受排列順序及使用習慣的問題,不能輕易地聯想到它們之間的關系。比如「canada」和「air」,可能沒辦法第一時間想到是「加拿大航空」(canada air)。在文章的最後,團隊提出了一種能夠在文本中查到短語并予以呈現的簡單方法,這對要學習數百萬個短語之間的向量關系大有益處。

雖然深度神經網絡(dnn)在機器學習領域是一種強大的模式,但如何用神經網絡掌握詞序間的聯系?《sequence to sequence learning with neural networks》給了我們一個很好的參考。作者采用了多層長短期存儲器(lstm)将輸入序列映射到固定維數的向量,并将另一個深度 lstm 從向量中解碼目标序列。通過英語到法語間的翻譯任務測試,lstm 的 bleu 得分達到了 34.8,此外在翻譯長句子上毫無難度。而作為比較,基于短語的得分在相同的資料集上達到了 33.3。當研究者采用 lstm 系統重新進行測試後,bleu 得分達到了 36.5,已經接近最佳得分。而研究者們對所有源的語句進行颠倒順序,以改進 lstm 的性能,這樣一來,短語的依附性會減少,讓優化過程更加容易。

這篇标題有點賣萌的《ask me anything: dynamic memory networks for natural language processing》主要介紹了自然語言處理的動态記憶體網絡(dmn)。自然語言處理的大多數任務都可以轉換為 qa 問題,dmn 作為一個神經網絡架構,能夠處理輸入的問題,形成情景記憶并産生相關的答案。問題會觸發一個疊代過程,允許模型引用輸入的内容及以前疊代的結果。随後,這些結果會在層次循環序列模型中進行推理以産生答案。dmn 支援端對端訓練,并且能擷取多種類型的任務及資料集裡的最優結果:問題解答(facebook 的 babl 資料集)、情緒分析文本分類(斯坦福情感樹庫)及基于演講标注的序列模組化(wsj-ptb)。這三個基于不同任務的訓練主要依賴訓練的單詞矢量,并按照「輸入-問題-回答」三部曲的流程來進行。

釋出于 2015 年的《character-aware neural language models》主要從字元角度出發進行研究。目前所做的預測依然是基于詞語層面的。模型主要建立了一個卷積神經網絡及基于詞性的高速網絡,其輸出基于 lstm 及遞歸神經網絡模型。此研究基于英國的 penn 資料庫而完成,該模型采用的參數比起現有技術水準少了 60%,不過模型采用了多種語言(阿拉伯語、捷克語、法語、德語、西班牙語、俄語)。在使用較少參數的情況下,效果優于詞級/語素級就 lstm 基線。結果顯示,目前基于多種語言,字元的輸入已經能夠滿足語言模組化,通過分析字元,進而判斷單詞所代表的含義,這一過程揭示,這一模型隻需要依賴字元就能實作語義編碼及正交資訊。

如果你對 babi 任務産生了興趣,不妨看下《towards ai-complete question answering: a set of prerequisite toy tasks》。機器學習研究的一個長期目标建立适用于推理及自然語言的方法,尤其在智能對話機制領域。為了實作這一點,團隊通過問題評估其閱讀了解的能力,對一組任務的有用性進行測試。主要的考察點在于:一個系統是否能通過事實比對、簡單歸納、推理等步驟回答問題。任務設計的标準主要集中于它是否能與人類進行交流。是以,團隊将這些任務按技能分類,以便研究人員判斷系統是否真正掌握了這一方面的技巧,并有針對性地進行優化。團隊此外還拓展和改進了引入的記憶體網絡模型,結果顯示它能夠解決一些問題(并不是所有的問題)。

《teaching machines to read and comprehend》實際上要教會機器閱讀自然語言文檔還是有點挑戰的,雷鋒網此前也報道過不少相關的研究成果。機器閱讀系統能夠測試機器在閱讀完一份文檔後,對提出問題進行解答的能力。在這篇論文中,團隊開發了一個神經網絡,教機器學會閱讀日常文檔,并用最簡單的語言結構回答複雜的問題。這個測試實際上有點像 cnn 及 dailymail 裡出現的那種填空式的問題。不過,到目前為止這一系統依然缺少大規模訓練和測試的資料集。這篇論文有時間的話可以稍微了解一下,但并不是非常推薦。

如果你想了解最先進的文本分類方式,那麼你一定不能錯過《very deep convolutional networks for natural language processing》。大部分 nlp 的主要實作方式是基于循環神經網絡,代表為 lstm 與卷積神經網絡。不過這些架構與深卷積神經網絡相比就是小巫見大巫了。在這篇文章裡,團隊提出了一種新的文本處理架構,能夠直接在字元級上進行操作,并且隻需要使用小的卷積及池操作。研究顯示,這個模型的性能在達到 29 個卷積層時能在公共文本分類任務上達到極佳改善。此外,這也是第一次将非常深的卷積網絡應用于 nlp 層面。

上一篇文章提到了一種超前的文本分類方式,但相對而言,《bag of tricks for efficient text classification》提到的方法速度則更快。文章中探讨了一種簡單有效的文本分類器 fasttext,并與深度學習分類器在準确性上進行了比對和評估。結果顯示,fasttext 在标準多核 cpu 上,能夠在 10 分鐘内實作超過 10 億詞的訓練,并且還能在 1 分鐘内将 50 萬個句子進行分類。

以上便是在自然語言處理領域的一些必讀研究論文,感興趣的小夥伴們可以看起來了!

【招聘】雷鋒網堅持在人工智能、無人駕駛、vr/ar、fintech、未來醫療等領域第一時間提供海外科技動态與資訊。我們需要若幹關注國際新聞、具有一定的科技新聞選題能力,翻譯及寫作能力優良的外翻編輯加入。工作地點深圳。履歷投遞至 [email protected]。兼職及實習均可。

繼續閱讀