天天看點

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

<b>作者介紹</b>:jesse clark

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

研究相位恢複的實體學家、資料科學家,有着豐富的建設網站與設計手機應用的經驗,在創業公司有着豐富的經驗,對創業有着極大的熱情。

pr是一個非凸優化問題,已經成為大量工作[1,2,3,4,5,6,9]的主題,并且成為結晶學的支柱,是結構生物學的中堅力量。

下面顯示的是pr重建過程的一個例子,展示了3d彌散資料(傅裡葉幅度)重構實空間3d密度的納米晶體[15]。

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

大多pr問題的成功算法是基于投影的方法,這是受到了凸優化投影到凸集上的啟發[10]。由于基于投影的方法在pr上取得了成功,探索能否使用類似的方法訓練神經網絡。

<b>交替投影</b>

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

凸集投影(pocs)是找到凸集之間交點的有用方法。上面顯示了一個簡單的例子,其中兩個凸限制集c1(紅色)和c2(藍色)。通過簡單的疊代映射連續地投影每個集合來找到交集:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

其中p是各自的集合上的投影。投影是幂等pp=p,并且是距離最小化;

p(x)=y以至于

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

最小;

當滿足下式的時候,能夠發現解決方案:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

當限制集為非凸時,很少能得出一般結論。是以,使用簡單的交替投影可能會導緻局部最小值的停滞。下面展示一個例子,其中集合被設定為非凸,找到交集(全局極小值)的能力高度依賴于初始猜測值。

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

盡管集合在不為凸的情況下失去了保障,但投影方法被證明是尋找非凸優化問題解決方案的一種有效方法。例子包括數獨、n皇後問題、圖形着色和相位檢索等[4,10]。

<b>差異圖</b>

最成功的非凸投影算法之一是差分圖(dm)[4,8],可以寫成

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

其中

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

其中y1和y2被稱為估計。一旦達到定點:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

這意味着兩個估計等價于解決方案;

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

差異圖通過作為泛化或等價特定超參數,關聯了pr文獻中許多的不同算法[1,3,6],不于上述形式,簡單版本的差異圖經常被使用:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

這種更簡單的版本通常表現良好,并減少每次疊代所需的投影數量(投影的順序也可以切換)。公式中的2p2-i項也被稱為反射操作,出現在許多投影算法中[9]。

同樣的非凸問題如下圖所示,但使用差分映射算法後不會被困在局部最小值中,而是能夠逃脫并搜尋更多的解空間,最後收斂于一個解決方案。

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

差異圖先前被定義為兩個投影,那麼當有兩個以上時會發生什麼呢?在這種情況下,定義一個新的疊代x,它是n個重複連接配接[10]:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn
新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

其中pl為第l個投影,x是權重和;

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

那麼許多預測的差異圖為

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

更新x:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

這種方法被稱為“分治算法”。下面是一個數獨拼圖的疊代例子,其收斂使用了差異圖與分治算法。

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

<b>用于訓練神經網絡的投影</b>

對差異圖、投影及其在非凸優化中的應用有了解後,下一步是對神經網絡的訓練進行預測。下例僅考慮一個分類任務,基本思想是尋找一個能正确分類資料的權重向量,将資料分解成k個子集:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

定義一個“投影”權重的投影,使得子集中的所有訓練資料被正确分類(或者損失為0)。實際上,使用的是子集的梯度下降來實作投影(基本上是過度拟合的點)。目标是獲得能正确分類每個資料子集的權重,并且要查找這些集合的交集。

<b>結果</b>

下圖顯示其平均訓練和測試損失曲線:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

訓練損失曲線

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

測試損失函數

從圖中可以看出效果不錯。訓練資料被分為大小相同的3組,都被用于投影限制。對于投影而言,需要找到一組最新的權重,使其與先前一組權重的距離最小。另外使用梯度下降法進行訓練,一旦訓練資料的準确度達到99%就終止投影。更新後的權重投影到3組上産生3個新的權重集合,這些集合連接配接在一起以形成

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

平均投影可以通過将權重平均得到,之後進行複制并連接配接後形成新的向量:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

根據差異圖将這兩個投影步驟組合以獲得權重的更新方案。除了正常度量外,還可以監視差異圖誤差來尋找收斂。差異映射誤差由下式定義:

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

上式值越低,表明解決方案越好。差異圖錯誤達到穩定表明已經找到了一個近似的解決方案。差異圖錯誤通常在穩定前會突然下降[4],表明找到合适的解決方案。

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

在上例中,投影是通過訓練資料子集上的反複梯度變化定義,本質上是過度拟合的點。在下例中,周遊完一次訓練資料後就終止投影。

下面顯示的是平均cv測試和訓練誤差(與上述相同的正常訓練相比)

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn
新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn
新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

從圖中可以看到這種方法仍然可行,為什麼會這樣呢?如果投影操作提前終止,那麼能想到的一點就是簡單地将該投影視為一個松弛投影或非最佳投影。凸優化和pr的結果[4,5,7,14]仍然表明,松弛投影或非最佳投影趨于好的解決方案。另外,在單周遊投影限制中,可以通過交替投影來恢複傳統的基于梯度下降的訓練方案(以3組為例):

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

最後,正常訓練中的參數設定會對網絡的結果産生很大的影響,具體參數設定可以檢視原文。訓練這樣的網絡并執行提前終止,傳統訓練方法的最終損失和準确度分别為0.0724和97.5%,而使用差異圖方法的結果分别為0.0628和97.9%。

<b>投影方法</b><b>的</b><b>擴充</b>

關于投影方法的好處之一是可以輕松實作額外的限制。對于l1正則化而言,可以定義收縮或軟門檻值操作,如

新穎訓練方法——用疊代投影算法訓練神經網絡 文章原标題《Training neural networks with iterative projection algorthms》,作者:Jesse Clark,譯者:海棠,審閱:tiamo_zn

其他投影可以是卷積核的對稱性或權重的直方圖限制。

<b>其他</b><b>注意事項</b>

本文還有很多未回答的問題,并沒有深入研究。比如最佳集合數是多少、投影操作如何工作、近解決方案的平均有助于泛化等問題。雖然還有很多問題需要回答,但是使用相位檢索和非凸投影方法來重新建構訓練得到了一些有趣的結果。

<b>參考文獻</b>

[1] j.r. fienup, "phase retrieval algorithms: a comparison". applied optics 2758-2769 (1982).

[2]  h.h. bauschke, p.l. combettes, and d.r. luke, "phase retrieval, error reduction algorithm, and fienup variants: a view from convex optimization". journal of the optical society of america a. 19:1334-1345 (2002).

[3] bauschke h h, combettes p l and luke d r "hybrid projection–reflection method for phase retrieval" j. opt. soc. am. a 20 1025–34 (2003).

[4] v. elser, 'phase retrieval by iterated projections', j. opt. soc. am. a/vol. 20, (2003).

[5] s. marchesini, h. he, h. n. chapman, s. p. hau-riege, a. noy, m. r. howells, u. weierstall, and j. c. h. spence, "x-ray image reconstruction from a diffraction pattern alone" phys. rev. b 68, 140101 (2003).

[6]luke russel d, “relaxed averaged alternating reflections for diffraction imaging” inverse problems, 21, 37-50 (2005).

[7] pierre thibault, veit elser, chris jacobsen, david shapiro and david sayre, 'reconstruction of a yeast cell from x-ray diffraction data', acta. cryst. (2006).

[8]  v. elser, et al. "searching with iterated maps" 104 (2), 418-423 (2007).

[9] s. marchesini, "a unified evaluation of iterative projection algorithms for phase retrieval", review of scientific instruments 78 (2007).

[10] s. gravel, v. elser, "divide and concur: a general approach to constraint satisfaction". physical review e. (2008).

[11]  x glorot, y bengio, "understanding the difficulty of training deep feedforward neural networks.", aistats 9, 249-256 (2010).

[12]  pierre thibault&amp; andreas menzel, "reconstructing state mixtures from diffraction measurements"", nature 494, 68–71 (2013).

[14]  j. n. clark, x huang, rj harder, ik robinson, "dynamic imaging using ptychography"" physical review letters 112, 113901 (2014).

繼續閱讀