參數要足夠多，神經網絡性能才會好，這是什麼原理？

選自quantamagazine

作者：Mordechai Rorvig

機器之心編譯

編輯：陳萍

要使神經網絡能夠更好地記憶資料，它們需要的參數比想象的要多得多。

傳統上，隻要參數的數量大于要滿足的方程數量，我們就可以使用參數化模型來進行資料插值。但在深度學習中，一個令人困惑的現象是，模型訓練使用的參數數量比這個經典理論所建議的要多得多。

深度學習中經常會出現各種大型的神經網絡，神經網絡是執行類人任務的領先 AI 系統。随着它們參數的增多，神經網絡已經可以執行各種任務。按照數學的理論，神經網絡無需很大就能執行任務，例如在直線 y=2x 中，确定這條直線無需很多參數。但是，現代神經網絡的規模通常遠遠超出預測的要求，這種情況被稱為過度參數化。

在去年 12 月入選 NeurIPS 的一篇論文《A Universal Law of Robustness via Isoperimetry》中，來自微軟研究院的 Sébastien Bubeck 和斯坦福大學的 Mark Sellke 為神經網絡擴充成功背後的奧秘提供了新的解釋。他們表明，神經網絡必須比傳統預期規模要大得多，才能避免某些基本問題。這一發現為一個持續了幾十年的問題提供了一般性見解。

論文連結：https://arxiv.org/abs/2105.12806

Mark Sellke 和 Sébastien Bubeck

瑞士洛桑聯邦理工學院的 Lenka Zdeborová 表示：他們的研究觸及了計算機科學的核心。神經網絡規模的标準來自對其如何記憶資料的分析。但要了解資料記憶，我們必須首先了解網絡的作用。

神經網絡中一項常見的任務是識别圖像中的目标。為了建立這種網絡，研究人員首先需要提供資料圖像及其标注，然後對其進行訓練以學習相關參數，之後模型能正确識别圖像中的目标。換句話說，訓練使網絡記住資料。更值得注意的是，一旦網絡記住了足夠多的訓練資料，它還能夠以不同程度的準确率預測它從未見過的目标，這一過程稱為泛化。

網絡的大小決定了它可以記住多少。這可以通過圖形來了解，想象一下，将兩個資料點放在 xy 平面上。你可以将這兩個點與由兩個參數描述的線連接配接起來。如果知道了這條線的一個點坐标以及一個原始資料點的 x 坐标，我們隻需檢視這條線（或使用參數）就可以計算出相應的 y 坐标。因為這條線已經記住了這兩個資料點。

神經網絡的原理與此類似。例如，圖像由成百上千個值描述 —— 每個像素是一個值。這些值在數學上等價于高維空間中一個點的坐标，坐标的數量稱為次元。

一個古老的數學結果表明，要将 n 個資料點與曲線拟合，則需要一個具有 n 個參數的函數。當神經網絡在 1980 年代首次作為一種有影響的力量出現時，研究者的想法與此相同，他們認為對于神經網絡來說，應該隻需要 n 個參數來拟合 n 個資料點 —— 無論資料的次元如何。

德克薩斯大學奧斯汀分校的 Alex Dimakis 表示：「現在的研究改變了，我們經常建立參數數量超過訓練樣本數量的神經網絡。這意味着相關研究文獻書籍必須重寫。」

Bubeck 和 Sellke 并沒有打算重寫任何東西。他們正在研究神經網絡缺乏的另一種特性，稱為穩健性（robustness），即網絡處理微小變化的能力。例如，一個穩健性較差的網絡可能已經學會了識别長頸鹿，但它會将一個幾乎沒有修改過的圖檔錯誤地标記為沙鼠，這就是網絡穩健性帶來的影響。

2019 年，當 Bubeck 及其同僚意識到該問題與網絡規模有關時，他們正在尋求證明有關該問題的定理。新研究表明過度參數化對于網絡的穩健性是必要的。他們通過将資料點與曲線拟合所需的參數來做到這一點，該曲線具有與穩健性等效的數學屬性：平滑度。

為了看到這一點，再次想象平面中的一條曲線，其中 x 坐标代表單個像素的顔色，y 坐标代表圖像标簽。由于曲線是平滑的，如果你稍微修改像素的顔色，沿着曲線移動一小段距離，相應的預測隻會發生很小的變化。另一方面，對于極度鋸齒狀的曲線，x 坐标（顔色）的微小變化會導緻 y 坐标（圖像标簽）發生劇烈變化，原本識别為長頸鹿的圖像可以變成沙鼠。

Bubeck 和 Sellke 的研究表明，平滑拟合高維資料點不僅需要 n 個參數，還需要 n × d 個參數，其中 d 是輸入的次元（例如，784 表示 784 像素的圖像）。換句話說，如果你想讓神經網絡穩健地記住它的訓練資料，過度參數化不僅有幫助 —— 而是絕對有效。證明依賴于一個關于高維幾何的奇特事實 —— 即放置在球體表面上的随機分布的點，幾乎都彼此相距一個完整的直徑。點與點之間的大間隔意味着用一條平滑曲線拟合它們需要許多額外的參數。

耶魯大學的 Amin Karbasi 表示，「這個證明非常基礎 —— 不需要繁重的數學運算，它說明了一些非常普遍的東西。」

該結果提供了一種新方法來了解為什麼擴大神經網絡規模的簡單政策如此有效。與此同時，其他研究揭示了過度參數化帶來幫助的更多原因，例如它可以提高訓練過程的效率，以及網絡的泛化能力。

雖然我們現在知道過度參數化對于穩健性是必要的，但尚不清楚穩健性對其他事物的必要性。通過将其與過度參數化聯系起來，新的證據似乎表明穩健性可能比想象的更加重要，是一個可以帶來許多好處的關鍵因素。

「穩健性似乎是泛化的先決條件，」Bubeck 說到。「如果你有一個系統，你隻是稍微擾亂它，然後它就失控了，這會是怎樣的系統？這是不可接受的，這是一個非常基礎和基本的要求。」

參考内容：

https://news.ycombinator.com/item?id=30288092

https://www.quantamagazine.org/computer-scientists-prove-why-bigger-neural-networks-do-better-20220210/

參數要足夠多，神經網絡性能才會好，這是什麼原理？

繼續閱讀

預測完整糖肽的片段光譜，浙大開發深度學習方法DeepGlyco

斯坦福團隊研發新型深度學習模型，能預測碳捕集引起的地表位移

王子奇的私服穿搭經，建議長相闆正的男生深度學習下！

深度思考：視覺深度學習模型一定越大越好嗎？

南方測繪推薦 | 劉麗：聯合深度學習與面向對象分析的衛甯北山露天礦山采場資訊提取

【技術】汽車端到端大模型：AI對駕駛規則的深度學習

“AI”科普丨太全了！多模态深度學習的綜述！

學前教育｜董欣然：在遊戲工作坊中促進幼兒深度學習——以“彭城美食街”為例

深度學習硬體的進步：GPU、TPU 等

生成式AI原理技術詳解（一）——神經網絡與深度學習

聽說你缺GPU？送你一份輕量級深度學習的最全總結！

100種分析思維模型之：深度學習

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

深度學習算法在素材隐義标簽生成中應用研究

預測瞬态熔池變化，美國開發深度學習替代原位PBF-LB粉末床金屬熔融3D列印過程監測

看了極客灣的測評，發現A卡的專業性能其實也不弱A卡的ai性能和深度學習不行，沒有CUDA核心根本運作不了，軟體都進不去，