深度學習零基礎進階第三彈｜幹貨分享

4. 循環神經網絡/序列到序列模式

《generating sequences with recurrent neural networks》一文由 graves 和 alex 兩位專家合力撰寫，這篇論文解釋了用遞歸神經網絡生成手寫體的原理。

《learning phrase representations using rnn encoder-decoder for statistical machine translation》完成了将英文轉譯為法文的任務，使用了一個 encoder-decoder 模型，在 encoder 的 rnn 模型中是将序列轉化為一個向量。在 decoder 中是将向量轉化為輸出序列，使用 encoder-decoder 能夠加入詞語與詞語之間的順序資訊。此外，還将序清單達為一個向量，利用向量能夠清楚的看出那些語義上相近的詞聚集在一起。

《sequence to sequence learning with neural networks》是谷歌的 i. sutskever 等人提出的一種序列到序列的學習方法, 最直接的應用就是機器翻譯。

attention 機制最早是在視覺圖像領域提出來的，随後 bahdanau 等人在論文《neural machine translation by jointly learning to align and translate》中，使用類似 attention 的機制在機器翻譯任務上将翻譯和對齊同時進行，他們算是第一個提出将 attention 機制應用到 nlp 領域中的團隊。

《a neural conversational model》是最早應用于序列到序列架構建立對話模型的論文，即便其中使用的模型結構并不複雜，網絡層數數量也不多，但效果是卻很可觀。

5.神經圖靈機

《neural turing machines》一文介紹了神經圖靈機，一種從生物可行記憶體和數字計算機的啟發産生的神經網絡架構。如同傳統的神經網絡，這個架構也是可微的端對端的并且可以通過梯度下降進行訓練。我們的實驗展示了它有能力從樣本資料中學習簡單的算法并且能夠将這些算法推廣到更多的超越了訓練樣本本身的資料上。絕對的五星推薦。

神經圖靈機是目前深度學習領域三大重要研究方向之一。論文《reinforcement learning neural turing machines》利用增強學習算法來對神經網絡進行訓練，進而使神經圖靈機的界面變得表現力十足。

《memory networks》由四位專家撰寫而成，實際上所謂的 memory network 是一個通用的架構而已，内部的輸入映射、更新記憶映射、輸出映射、響應映射都是可以更換的。

《end-to-end memory networks》在算法層面解決了讓記憶網絡端對端進行訓練的問題，在應用方面則解決了問題回答和語言模組化等問題。

《pointer networks》中提出了一種新型的網絡架構，用來學習從一個序列輸入到一個序列輸出的推導。跟以往的成果不同之處在于，輸入輸出的長度都是可變的，輸出的長度跟輸入有關。

《hybrid computing using a neural network with dynamic external memory》是谷歌 deepmind 首發于《自然》雜志的論文，它介紹了一種記憶增強式的神經網絡形式，其被稱為可微神經計算機（differentiable neural computer），研究表明它可以學習使用記憶來回答有關複雜的結構化資料的問題，其中包括人工生成的故事、家族樹、甚至倫敦地鐵的地圖。研究還表明它還能使用強化學習解決拼圖遊戲問題。五星推薦。

6. 深度強化學習

終于！我們來到了深度強化學習的門下。說到這個名詞，怎麼能不提第一篇提出深度強化學習的論文呢？mnih 所寫的《playing atari with deep reinforcement learning》将卷積神經網絡和 q learning 結合，使用同一個網絡玩 atari 2600（也就是打方塊）這類隻需要短時記憶的 7 種遊戲。結果顯示，這種算法無需人工提取特征，還能生成無限樣本以實作監督訓練。

而至于深度強化學習的裡程碑之作，同樣要屬同一作者的《human-level control through deep reinforcement learning》，作者發明了一個名為dqn也就是深度q網絡的東西，讓人工神經網絡能直接從傳感器的輸入資料中獲得物體分類，成功實作端到端的強化學習算法從高維的傳感器輸入中直接學習到成功政策。

而接下來這篇名為《dueling network architectures for deep reinforcement learning》的文章則提出了一個新的網絡——競争架構網絡。它包括狀态價值函數和狀态依存動作優勢函數。這一架構在多種價值相似的動作面前能引發更好的政策評估。此文當選 icml 2016最佳論文大獎。

《asynchronous methods for deep reinforcement learning》由 deepmind 出品，主要增強了 atari 2600 的遊戲效果，也被視為通過多個執行個體采集樣本進行異步更新的經典案例。

比起傳統的規劃方法，《continuous control with deep reinforcement learning》裡提到的dql方法能夠應用于連續動作領域，魯棒解決了 20 個仿真運動，采用的是基于icml 2014的deterministic policy gradient （dpg）的 actor-critic 算法，名為 ddpg。

《continuous deep q-learning with model-based acceleration》采用了 advantage function 完成增強學習工作，但主要集中于變量連續行動空間。而就像标題所言，為了加快機器經驗擷取，研究還用卡爾曼濾波器加局部線性模型。實驗結果顯示，這種方法比前一篇論文提及的 ddpg 要好些。

schulman的《trust region policy optimization》可謂是計算機玩遊戲的一大突破，這個名為 trpo 的算法所呈現的結果絲毫不遜色于 deepmind 的研究成果，展示了一種廣義的學習能力。除了叫機器人走路，我們還能讓它成為遊戲高手。

接下來介紹的這篇論文就是鼎鼎大名的 alphago 所運用的算法，《mastering the game of go with deep neural networks and tree search》裡，谷歌運用了 13 層的政策網絡，讓計算機學會用蒙特卡羅搜尋樹玩圍棋遊戲。當然，五星推薦此篇，不服來辯。

7. 無監督特征學習

《deep learning of representations for unsupervised and transfer learning》可謂無監督特征學習的開山之作。

而接下來的這篇《lifelong machine learning systems: beyond learning algorithms》主要提到的觀點是，如果一個具有lifelong machine learning能力的機器學習系統，是否能夠使用解決此前問題的相關知識幫助它解決新遇到的問題，也就是舉一反三的能力。文章在 2013 年的aaai 春季研讨會上首次提出。

人工智能教父又來了，他這次和 dean 合作帶來的是《distilling the knowledge in a neural network》，也就是壓縮神經網絡。不過核心創新貌似不多，是以給個四星吧。

《policy distillation》，文章由谷歌大神andrei alexandru rusu 所寫，同款文章還有 parisotto 的《actor-mimic: deep multitask and transfer reinforcement learning》，都是在講 rl 域的問題。

這裡還有另外一篇 andrei 的文章，名為《progressive neural networks》，提出了一項名為“漸進式神經網絡”的算法，即在仿真環境中訓練機器學習，随後就能把知識遷移到真實環境中。無疑，這将大大加速機器人的學習速度。

8. 一步之遙

以下五篇論文雖然并不是完全針對深度學習而推薦，但包含的一些基本思想還是具有借鑒意義的。

《human-level concept learning through probabilistic program induction》五星推薦，文章主要介紹了貝葉斯學習程式（bpl）架構，“如何依靠簡單的例子來對新概念進行學習和加工，學習主體是人類。”

而讀讀 koch 的《siamese neural networks for one-shot image recognition》和這篇《one-shot learning with memory-augmented neural networks》着實很有必要。

将重點放在大資料上的《low-shot visual object recognition》則是走向圖像識别的必要一步。

以上便是第二階段值得一讀的論文，敬請期待後續更新。

深度學習零基礎進階第三彈｜幹貨分享

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希

深度學習零基礎進階第三彈​｜幹貨分享

繼續閱讀

深度學習零基礎進階第三彈｜幹貨分享