天天看點

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

雷鋒網編者按:萬衆矚目的2017年iclr 于今天在法國召開。該大會是yann lecun 、yoshua bengio 等幾位行業頂級專家于2013年發起。别看它曆史不長,影響力卻不小,如今已成為深度學習領域一個至關重要的學術盛事。

據雷鋒網消息,iclr論文評選結果于今日新鮮出爐。經過列為評委的火眼金睛,在507份論文中共有15篇論文成功進入口頭展示階段,181篇進入海報展示階段。

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

除了這些被選入iclr 2017的論文,還有三篇論文成功當選為iclr 2017最佳論文。今天,雷鋒網小編就帶大家領略一下這三篇最佳論文的風采。這三篇論文分别是:

《用半監督知識遷移解決深度學習中訓練隐私資料的問題》(semi-supervised knowledge transfer for deep learning from private training data)

《通過遞歸實作神經程式設計架構通用化》(making neural programming architectures generalize via recursion)

《泛化——一個了解深度學習需要重新思考的問題》(understanding deep learning requires rethinking generalization)

1.《用半監督知識遷移解決深度學習中訓練隐私資料的問題》

(semi-supervised knowledge transfer for deep learning from private training data)

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

該論文由nicolas papernot(賓夕法尼亞州立大學)、martín abadi、kunal talwar(谷歌大腦)的,Úlfar erlingsson(谷歌)以及ian goodfellow(openai)共同完成。

論文摘要

有些機器學習應用訓練資料時可能會涉及到一些敏感資料,比如臨床試驗患者的醫療史。這是因為模型可能會無意間,以不容易被發現的方式将這些訓練資料儲存下來。而隻要對模型進行仔細分析,這些敏感資訊就能被重新提取出來。

為了解決這個問題,我們在這裡為大家展示一種可以減少隐私資料洩露的通用方法——該方法以黑箱的方式,把用不相交資料集(例如來自不同使用者子集的記錄)訓練而成的多個模型結合在一起。由于資料涉及隐私,是以模型不會被公開,而是作為學生模型的教師。學生需要學會的預測結果由全部教師的有噪投票(noisy vote)選出,并且學生不能直接對單個教師模型、底層資料或參數進行通路。

由于不涉及單個教師,是以也不會存在用單個資料集訓練學生的情況。這就在差分隐私(differential privacy)方面確定了學生模型的隐私性。即使是入侵者可以查詢學生模型并檢查其内部運作,學生模型的隐私性依然有效。

和之前的工作相比,該方法隻是加強了如何訓練教師的弱假設:它可以應用于任何模型,包括非凸(non-convex)模型dnn。

改善後的隐私分析和半監督學習技術使模型在mnist 和 svhn 上既有高度的實用性,又能保護使用者隐私不被洩露。

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

簡單來說該方法就是:

用敏感資料的不相交子集訓練一組教師模型; 用被教師組标記過的公共資料訓練學生模型。

最終評審結果是這樣評價的

該論文為差分隐私學習提供了一個通用的教師-學生模型,讓學生學會預測一組教師的噪音投票。噪音讓學生做到差分隐私的同時,也保證了mnist和svhn的精确分類。評選委員會認為該論文撰寫得很優秀。

 決定

采納(口頭展示)

2.《通過遞歸實作神經程式設計架構通用化》

(making neural programming architectures generalize via recursion)

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

該論文由jonathon cai, richard shin, dawn song(均來自于加利福尼亞大學伯克利分校)完成。

從經驗角度來說, 試圖從資料中學習程式設計的神經網絡這一方法的通用性較差。而且,當輸入的複雜度超過了一定水準,就很難去推斷這些模型的表現效果。為了解決這個問題,我們提出用一個關鍵的抽象概念——遞歸(recursion)來增強神經架構。我們在神經程式設計器-解釋器架構(neural programmer-interpreter framework)上實作遞歸,這個過程包括四個任務:國小加法(grade-school addition)、冒泡排序(bubble sort)、拓撲排序(topological sort)和快速排序(quicksort)。我們用少量訓練資料證明了該方法具有較好的可泛化性和可解釋性。遞歸能将問題分割成一個個更小的部分,并大大減少每個神經網絡元件的域,使其易于證明對整個系統行為的擔保。我們的經驗顯示,為了讓神經架構更牢靠地學習程式語義(program

semantics),有必要引入這樣的“遞歸”方法。

該論文探讨了一個很有實際價值意義的問題。

3.  《泛化——一個了解深度學習需要重新思考的問題》 

(understanding deep learning requires rethinking generalization)

深度學習盛會ICLR2017最佳論文都是啥?,雷鋒網帶你5min過重點(附論文連結)

該論文由chiyuan zhang(麻省理工學院),benjamin recht(加利福尼亞大學伯克利分校),samy bengio、moritz hardt(谷歌大腦)和oriol vinyals(谷歌深度學習)共同完成。

有些成功運作的人工神經網絡,盡管體量巨大,但它們在訓練和測試性能兩個階段表現出來的結果卻隻存在微小差異。過去大家認為這種微小誤差,要麼是由于模型譜系自身的特性,要麼是由在訓練期間使用的正則化技術所緻。

經過大量系統實驗,我們展示了這種傳統觀點是不确切的。具體來說,我們的實驗證明了用随機梯度方法訓練的、用于圖像分類的最先進的卷積網絡很容易拟合訓練資料的随機标記。這種現象本質上不受顯式正則化影響,即使用完全非結構化随機噪聲來替換真實圖像也是如此。

我們通過一個理論結構證明了實驗結果。理論結構表明,隻要參數數量超過實際中通常存在的資料點,簡單兩層深度神經網絡(simple depth two neural networks)就能夠産生完美的有限樣本表達性。通過與傳統模型的比較解釋了我們的實驗結果。

作者在論文中闡述了深度神經網絡拟合随機标簽資料的能力,并給出了非常不錯的實驗結果。調查不僅合理,且有啟發和激勵意義。作者提出1.

一個理論執行個體,說明一個具有足夠規模參數的簡單淺層網絡能夠産生完美的有限樣本表達性;2.一個系統且廣泛的實驗評估得以支援研究結果和論點。實驗評估模型考慮得很周到。

該論文所具有的開創性意義将會在未來幾年對許多研究起到啟發作用。

決定

本文作者:夏睿

繼續閱讀