編輯:好困
【新智元導讀】SIAM首屆資料科學青年獎于近日開獎!蘇炜傑憑借着在機器學習算法優化、資料隐私保護、深度學習理論基礎和高維統計的突出貢獻,成為本次唯一獲獎者。
近日,SIAM公布了首屆2022年資料科學青年獎得主,北京大學數學科學學院2011屆校友、斯坦福大學博士蘇炜傑為唯一獲獎人。

https://www.siam.org/prizes-recognition/activity-group-prizes/detail/siag-data-early-career-prize
SIAM資料科學青年獎由SIAM(美國工業與應用數學學會)每兩年在全世界範圍頒發一次,旨在獎勵一名在資料科學領域做出傑出貢獻的青年學者。
今年評獎委員會包括了德國、美國、比利時和中國香港等多位在應用數學、機器學習和優化領域的國際著名學者。頒獎儀式将在今年9月份在美國聖地亞哥的SIAM資料科學會議上舉行。屆時蘇炜傑将在SIAM大會上作全體特邀報告。
蘇炜傑現為賓夕法尼亞大學沃頓商學院統計與資料科學系和工學院計算機系助理教授,以及Facebook通路科學家。蘇炜傑教授同時還兼任賓大機器學習研究中心聯合主任,以及任職于應用數學和計算數學項目執行委員會。此外還供職于賓大沃頓智能商務中心,Warren網絡資料科學中心,和北京智源人工智能研究院青源會。他曾在2019年和2020年分别獲得NSF CAREER Award和斯隆研究獎。
蘇炜傑的求學經曆亦頗為精彩。
他高中兩度代表浙江省參加中國數學奧林匹克競賽,高一即獲得清華大學預錄取資格,高三獲得全國第二名的成績。2007年至2011年就讀于北京大學數學科學學院基礎數學方向,期間連續三年獲得最高獎學金,專業成績在基礎數學專業中排名年級第一。
在北京大學求學期間,蘇炜傑獲得了首屆丘成桐大學生數學競賽全能金牌和應用數學金牌,以及代數和分析方向的兩枚銅牌。2010年蘇炜傑及隊友在美國大學生數學模組化競賽中,獲得選做B題方向的中國大陸第一名。之後獲得斯坦福大學最高等級的博士獎學金,在2016年獲得博士學位,其畢業論文獲得首屆斯坦福Theodore Anderson獎。之後跳過博士後階段直接執教于賓夕法尼亞大學。
獲獎工作簡介
蘇炜傑教授獲得SIAM資料科學青年獎是基于他在機器學習的優化算法、資料隐私保護、深度學習理論基礎和高維統計做出的重要貢獻。
添加動量(momentum)是優化機器學習模型時常用的一個技巧,比如深度學習三巨頭之一、ACM圖靈獎獲得者Yoshua Bengio一個重要工作指出添加動量可以顯著地加快優化深度神經網絡。
凸優化中著名的Nesterov加速算法,就是在普通梯度下降算法基礎上增加了一個動量項,效果提升顯著,但其背後的機制一直有待闡明。
論文連結:https://jmlr.org/papers/volume17/15-084/15-084.pdf
蘇炜傑的一個代表性工作是對一類添加動量的優化算法提供了一個分析和設計的架構,特别是對Nesterov加速算法提供了一個非常直覺的解釋[1]。這個架構的核心是用動力系統的連續觀點看離散的算法,充分利用「連續數學」的分析優勢。
蘇炜傑和美國工程院院士Stephen Boyd的美國科學院院士Emmanuel Candes
這個工作被衆多機器學習理論研究者使用和推廣。機器學習泰鬥Michael Jordan在2018年裡約國際數學家大會1小時報告中,以很大的篇幅介紹了其團隊推廣蘇炜傑教授工作的最新成果。
Michael Jordan在2018年國際數學家大會上介紹如何推廣蘇炜傑在機器學習優化算法上的工作
蘇炜傑的另一個獲獎工作是其團隊開發的高斯差分隐私(Gaussian Differential Privacy)架構[2]。
論文連結:https://rss.org.uk/RSS/media/Training-and-events/Events/2020/Dong-et-al-jrssb-final.pdf
人工智能中的隐私問題已經被公認為是一個重要并且嚴肅的問題,2006年美國科學院和工程院兩院院士Cynthia Dwork等提出的差分隐私奠定了隐私資料分析的基礎。
蘇炜傑早年在Mountain View的微軟研究院師從Cynthia Dwork時,意識到這個架構在分析一些基本的隐私算法時效率低下,在應用到深度學習時有很大局限性。
高斯差分隐私在英國皇家統計學會的特邀報告
高斯差分隐私創新性地用假設檢驗的角度來精準地刻畫隐私算法,從理論上嚴格證明了這個新架構具有多個最優性質,該論文作為Discussion Paper受邀在英國皇家統計學會上研讀。
蘇炜傑團隊還成功将高斯差分隐私應用到深度神經網絡的訓練,在同等隐私保護程度的條件下取得了比Google Brain更高的預測精度。這個新的隐私資料分析架構已經納入TensorFlow,受到業界關注,并有望應用到某矽谷旗艦大廠的産品中。
蘇炜傑近期在深度學習理論上的貢獻也是其獲獎原因。深層神經網絡已經在諸多科學與工程問題上取得了優良的表現,但關于其良好的泛化性能卻一直缺乏令人滿意的理論解釋。
蘇炜傑提出了深度神經網絡的局域彈性(local elasticity)理論,給神經網絡泛化、優化等性質提供了一個簡單的唯象理論[3]。
論文連結:https://openreview.net/pdf?id=HJxMYANtPH
此外,蘇炜傑團隊提出了一種層間「剝離」的分析模型,對上述問題給出了另一種新思路[4]。
論文連結:https://www.pnas.org/content/118/43/e2103091118
基于神經網絡強大的表達能力,這個新模型将網絡的部分層看作一個整體,将其輸出特征看作一個可以适應網絡訓練過程的優化變量,着重研究了特征與後繼層參數在網絡訓練中的互相作用。
蘇炜傑團隊用這個模型深入分析了深度神經網絡在訓練資料不平衡時的表現,發現了一個新穎且具有重要實際意義的現象。該成果已于近期發表在頂級期刊《美國國家科學院院刊》上。
這個新模型還解釋了美國科學院院士David Donoho團隊發現的神經坍縮(neural collapse)現象。這個現象表明神經網絡的優異性能很大程度來自于幾何對稱性。
層間「剝離」的分析模型表明神經坍縮來自于在一定限制條件下目标函數最小化的對稱性,這個數學上嚴謹的解釋獲得了Donoho院士的高度評價。
參考資料:
[1] W. Su, S. Boyd, and E. Candes. A differential equation for modeling Nesterov’s accelerated gradient method: Theory and insights. Journal of Machine Learning Research, 17(1):5312–5354, 2016.
[2] J. Dong, A. Roth, and W. Su. Gaussian differential privacy. Journal of the Royal Statistical Society: Series B (with discussion), 2022.
[3] H. He and W. Su. The local elasticity of neural networks. In International Conference on Learning Representa tions, 2020.
[4] C. Fang, H. He, Q. Long, and W. Su. Exploring deep neural networks via layer-peeled model: Minority collapse in imbalanced training. Proceedings of the National Academy of Sciences, 118(43), 2021.