天天看點

機器學習---模型的穩定性

參考: https://zhuanlan.zhihu.com/p/27787096

針對原文内容進行了抽取,加深自身的印象,詳細參考原文。

1. 計算的穩定性(Computational Stability)

計算穩定性特指模型運算性能的魯棒性(Robustness)。

  • 1.1 下溢和上溢:位數超出了計算機可承載範圍,
    下溢: 例如,x個小數相乘,則小數位可能失去精度。
    上溢:例如,x個整數相乘,正數位數溢出
               
  • 1.2 平滑與0
    樸素貝葉斯中平滑操作, 拉普拉斯平滑,防止機率連乘時,某個機率為0,導緻整體機率為0.
               
  • 1.3 算法穩定性與擾動
    機器學習模型中個,考慮算法對于資料擾動的魯棒性。“模型的泛化由誤差(Bias)和方差(Variance)共同決定,而高方差是不穩定性的罪魁禍首”。也就是: 輸入發生微小變化,輸出産生巨大變化, 則說明算法不穩定。
    
    機器學習,中間處理的其他算法也可能存在這樣的情況:
    1)矩陣求逆工程不穩定,一般避開矩陣求逆。
    2)神經網絡批量學習: 錯誤的學習率和批量尺寸導緻不穩定的學習過程。當小批量進行學習,小樣本中的高方差導緻學到的梯度不精确,這種情況,應該使用國小習速率。 相反,當批量尺寸選的較大,則可以使用較大的速率。
    3) 決策樹:屬于不穩定的模型。訓練資料中微小改變可能改變決策樹的結果。為了解決穩定性,出現了內建學習。
    SVM模型相對穩定。
               

2. 資料穩定性

資料穩定性取決于其方差(Variance)
           
  • 2.1 獨立同分布(IID)與泛化能力
    模型能獲得強泛化能力資料保證就是其訓練資料是獨立同步分從母體分布上采樣而得。
    一般訓練資料足夠穩定,需要:
       1. 訓練資料越多越好,降低資料中的偶然性
       2. 確定訓練資料和母體資料及月資料來自于一個分布。
    是以資料穩定性的基本前提就是: 獨立同分布,且數量越多越好。 穩定資料可以保證模型的經驗誤差約等于器泛化誤差。
               
  • 2.2 新常态: 類别不平衡
    當我們采用, 過采樣,欠采樣時,注意資料的穩定性。是否帶來了過高的方差Variance
               

3. 性能的穩定性

評估機器學習模型的穩定性,和評估機器學習的表現有本質不同。不能簡單通過準确率平局機器學習穩定與否。
1)交叉驗證太慢
2) 統計計算理論對算法進行分析: 機率近似正确架構(PAC)。 界限出錯架構(MBF)
           

然而,在穩定之外,對于未知領域的探索,才是創新。是以放寬“穩定”的界限,不斷探尋真理的邊界,是我輩知識分子對于這個動蕩未知世界所能表達的最後的人文關懷。

繼續閱讀