《Pattern Recognition and Machine Learning》學習筆記第一章（三）

2023-08-01 22:39:18

Chaper 1(three)

1.3. Model Selection

在之前提到的多項式曲線拟合中就可以看出，多項式的最高次數影響着所模組化型的對測試資料（testing data）性能，項數小，拟合效果不好，項數過大，容易出現過拟合現象（over-fitting）。這就涉及到了一個模型選擇的問題。

如果我們有大量的資料，可以用來建立多個模型，然後再使用同一獨立的資料集去評價各個模型的性能，選取性能最好的那個模型及其參數。如果使用小資料多次疊代進行模型比較選擇，容易出現過拟的現象。但是，在許多情況下，提供給模組化的訓練和測試資料都十分有限，又想建個好模型，怎麼辦呢？

解決這個窘境的辦法之一就是使用交叉驗證（cross-validation），将可用的資料集分成S份（一般是分成相同大小），用S-1份去訓練各個模型，用剩下的一份去測試模型，如此重複S次，将各個模型的性能平均，選取平均性能最好的模型和參數。圖解如下：

《Pattern Recognition and Machine Learning》學習筆記第一章（三）

如果可用資料集規模特别的小，可以考慮使S=N，N是可用資料的樣本個數，這被稱為leave-one-out。

交叉驗證的主要缺點就是S決定了模組化比較過程中的疊代次數，如果S過大的話，而且單個模型中還會有多個複雜的模型參數，這會造成大量的計算花費。

是以，理想的情況是僅使用訓練資料（training data），對多個模型和參數的選擇比較在一次訓練過程（training run）完成。是以我們要找到一種僅依賴于訓練資料并且不會引起過拟的性能評估方法。在曆史上，其中之一就是the Akaike information criterion, or AIC (Akaike, 1974)，通過使下面的式子達到最大來選擇模型：

《Pattern Recognition and Machine Learning》學習筆記第一章（三）

其中，

《Pattern Recognition and Machine Learning》學習筆記第一章（三）

是最優的似然函數，

《Pattern Recognition and Machine Learning》學習筆記第一章（三）

是模型中的參數個數。其他的例子還有Bayesian information criterion, or BIC，不過在本書4.4.1在講，是以本章的标題是Introduction，隻是介紹性的，詳細的東西在以後的章節。

To be continued…

《Pattern Recognition and Machine Learning》學習筆記第一章（三）

繼續閱讀

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

【多變量線性回歸】學習記錄序思路實作終

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

《Pattern Recognition and Machine Learning》學習筆記 第一章（三）

繼續閱讀

《Pattern Recognition and Machine Learning》學習筆記第一章（三）