摘要:近年來,基于資料驅動的機器學習模型開始提供可替代的方法,并在許多任務中優于純實體學驅動模型。
本文分享自華為雲社群《如何将知識引入機器學習模型提升泛化能力?》,作者:PG13 。
基于實體學的模型是當今技術和科學的核心。近年來,基于資料驅動的機器學習模型開始提供可替代的方法,并在許多任務中優于純實體學驅動模型。但是,基于資料驅動的模型訓練需要大量的資料,而且它們的決策推理可能難以解釋,而且泛化性能仍然是一個挑戰。而同時結合資料和實體學則可以兩全其美,當機器學習算法在學習時,它們實際上是在你選擇的算法、架構和配置所定義的假設空間中去尋找解。即使對于簡單的算法,假設空間也可能相當大,而資料是我們在這個巨大空間中尋找解決方案的唯一指南。而如果我們可以使用我們對世界的知識(例如實體學)和資料一起來指導解空間的搜尋,結果會怎樣呢?
如何利用實體學來指導機器學習模型,總結一下主要有兩種方法:(1)使用實體學理論計算額外特征(特征工程),與測量值一起輸入模型進行訓練;(2)在損失函數中添加實體不一緻懲罰項以懲罰與實體學不一緻的預測。

第一種方法,也就是特征工程,在機器學習領域中廣泛使用。而第二種方法很像添加一個正則化項來懲罰過拟合現象,它們在損失函數中添加了一個實體不一緻懲罰項。是以,在進行參數優化時,優化算法還需最小化實體上不一緻的結果。
在論文[1]中,Karpatne 等人将這兩種方法與神經網絡相結合,并展示了一種他們稱之為實體引導神經網絡 (PGNN) 的算法。PGNN 可以提供兩個主要優勢:
實作泛化是機器學習中一個基本挑戰。由于大多實體模型不依賴于資料,是以它們在可能在未見過的資料上也能有良好的表現,即使這些資料來自于不同的分布。
機器學習模型有時也被稱為黑盒模型,因為它并不總是清楚模型如何進行特定的決策。可解釋AI(XAI)有很多的工作要做以提高模型的可解釋性。而PGNN可以為XAI提供基礎,因為他們能夠呈現出實體上一緻且可解釋的結果。
在論文[1]中,以湖泊溫度模組化為例來證明了 PGNN 的有效性。衆所周知,水溫控制着生活在湖中的生物物種的生長、生存和繁殖。是以,準确的溫度觀測和預測對于了解社群中發生的變化至關重要。論文的任務是開發一個模型,可以根據給定的深度和時間來預測湖泊的水溫。
現在,讓我們看看他們是如何應用 (1) 特征工程和 (2) 損失函數修改來解決這個問題的。對于特征工程,他們提出了一種稱為GLM的模型來生成新特征并将其輸入神經網絡。它是一個基于實體學的模型,它能捕捉控制湖泊溫度動态的過程(由于太陽、蒸發等引起的加熱)。那麼如何定義這個實體不一緻項呢?衆所周知,密度大的水會下沉至更深處,而水的溫度與其密度之間的實體學關系也是已知的。是以,我們的模型在預測時應該遵循這樣一個事實,即點越深,預測密度越高。如果對于兩個點,模型預測出來更靠近湖面的點的密度更高,這就是在實體上不一緻的預測。
經過以上的分析,現在可以将這個想法合并到我們的損失函數中。如果 ρA> ρB,也就是預測不符合實體一緻性,我們需要進行懲罰,否則不進行懲罰。這可以通過将函數max( ρA- ρB, 0)的值添加到損失函數中來輕松實作。如果 ρA> ρB(即實體不一緻),該函數将給出一個正值,這将增大損失函數的值,否則為零,保持損失函數不變。
此時,我們還需要對該函數進行兩點修改:(1) 我們需要考慮所有點對的實體不一緻情況,而不僅僅隻是某一對。是以,可以對所有點對的max( ρA- ρB, 0)值求平均。(2) 此外,最小化實體不一緻懲罰項的權重也很關鍵。這可以通過将平均實體不一緻項乘以超參數(與正則化參數類似)來完成。如下公式所示:
對4個模型的結果進行了比較,分别是:
PHY:通用湖泊模型(GLM)
NN:神經網絡
PGNN0:具有特征工程的神經網絡,GLM模型的結果作為額外特征輸入神經網絡。
PGNN:具有特征工程和修正損失函數的神經網絡。
以及兩個評估名額:
RMSE:均方根誤差
實體不一緻分數:模型的預測不符合實體一緻性結果的占比。
将 NN 與 PHY 進行比較,我們可以得出結論,NN 以損失實體不一緻的結果為代價提供了更準确的預測。而比較 PGNN0 和 PGNN,我們可以看到通過修改了損失函數消除了實體不一緻性。而預測準确性的提高主要是由于特征工程以及損失函數的一些貢獻。
總而言之,這些初步結果向我們表明, PGNN 非常有希望提供較準确且實體一緻的結果。此外,我們通過将實體學的知識進行轉換引入損失函數,提升了機器學習模型的泛化性能。這個看似簡單的想法有可能從根本上改善我們進行機器學習和科學研究的方式。
參考文獻
[1] Physics-guided Neural Networks(PGNN): An Application in Lake Temperature Modeling.
[2] Theory-guided Data Science: A New Paradigm for Scientific Discovery from Data.
點選關注,第一時間了解華為雲新鮮技術~