機器學習筆記5：機器學習政策之方差和偏差

2023-06-12 11:38:52

本文主要參考吳恩達的機器學習課程。

一、機器學習中的各種政策：

開發一個完整的機器學習項目要經曆：使用訓練集訓練模型--->開發集調整模型參數--->測試集測試模型效果--->上線實際使用。

1. 如果模型在訓練集上表現不好，可采取的政策有：

選擇更大的神經網絡（即更複雜的模型），使用AdamOptimizer等替代随機梯度下降法來優化，等等。

2. 如果模型在開發集上表現不好，可采取的政策有：

正則化，dropout(作用相當于正則化), 使用更多的資料作為訓練集，等等

3. 如果模型在在測試集上表現不好，可采取的政策有：

使用更多的資料作為開發集，等等

4. 如果模型在現實應用中表現不好，可采取的政策有：

改變開發集或者損失函數，等等

注：不太建議使用early stopping.

二、評估名額

1. 常用的評估名額有準确率，F-socre等

2. 實際中，可考慮運作時間等其他名額。

三、指南

選擇未來期望會用到的、模型表現較好的資料來作為開發集和測試集，即開發集、測試集應和項目上線後實際應用中的資料來自同一個分布（資料源一緻）。反例：不能使用高清圖檔作為開發集和測試集，然後實際應用大多是識别有很多噪聲的圖檔，這樣應用效果可能會不好。

四、訓練集、開發集和測試集的劃分

1. 傳統方式：70%的訓練集、30%的測試集（實際應叫開發集）；或者60%的訓練集，20%的開發集，20%測試集

2. 資料量很大(達到百萬以上的級别)時，可考慮98%作為訓練集，1%作為開發集，1%作為測試集。

3. 不建議省略測試集

五、和人類的水準進行比較：

人類在模型任務上特别擅長，如果你的模型表現不如人類水準，可以做如下工作：

1. 擷取人工打過标簽的資料

2. 人工分析錯誤原因：為什麼人類作對了？

3. 更好地進行偏差和方差分析：

（1）計算人類的水準和模型在訓練集上的錯誤率和之差deta1，計算模型在訓練集上的錯誤率和開發集上的錯誤率之差deta2；

（2）如果deta1較大，則說明偏差過大(模型可能欠拟合），可考慮的措施有：

訓練更複雜的模型，使用更好的優化算法(Momentum, RMSProp, Adam等), 超參搜尋等。

(3) 如果deta2較大，則說明方差過大（模型可能過拟合）,可考慮的措施有：

使用更多的資料；正則化，包括L2，dropout, 資料增強(如圖檔的裁剪/縮放/彩色變換/翻轉), 超參搜尋等。

4. 機器學習在某些領域已經超越了人類的表現

機器學習筆記5：機器學習政策之方差和偏差

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告