【ML入門系列】（一）訓練集、測試集和驗證集

2017-04-19 23:50:00

訓練集、驗證集和測試集這三個名詞在機器學習領域極其常見，但很多人并不是特别清楚，尤其是後兩個經常被人混用。

在有監督(supervise)的機器學習中，資料集常被分成2~3個，即：訓練集(train set)，驗證集(validation set)，測試集(test set)。

Ripley, B.D（1996）在他的經典專著Pattern Recognition and Neural Networks中給出了這三個詞的定義。

Training set: A set of examples used for learning, which is to fit the parameters [i.e., weights] of the classifier.

Validation set: A set of examples used to tune the parameters [i.e., architecture, not weights] of a classifier, for example to choose the number of hidden units in a neural network.

Test set: A set of examples used only to assess the performance [generalization] of a fully specified classifier.

作用：估計模型

學習樣本資料集，通過比對一些參數來建立一個分類器。建立一種分類的方式，主要是用來訓練模型的。

作用：确定網絡結構或者控制模型複雜程度的參數

對學習出來的模型，調整分類器的參數，如在神經網絡中選擇隐藏單元數。驗證集還用來确定網絡結構或者控制模型複雜程度的參數。

作用：檢驗最終選擇最優的模型的性能如何

主要是測試訓練好的模型的分辨能力（識别率等）

Ripley也談到了這個問題：Why separate test and validation sets?

1. The error rate estimate of the final model on validation data will be biased (smaller than the true error rate) since the validation set is used to select the final model.

2. After assessing the final model with the test set, YOU MUST NOT tune the model any further.

簡而言之，為了防止過度拟合。如果我們把所有資料都用來訓練模型的話，建立的模型自然是最契合這些資料的，測試表現也好。但換了其它資料集測試這個模型效果可能就沒那麼好了。就好像你給班上同學做校服，大家穿着都合适你就覺得按這樣做就對了，那給别的班同學穿呢？不合适的機率會高吧。總而言之訓練集和測試集相同的話，模型評估結果可能比實際要好。

顯然，training set是用來訓練模型或确定模型參數的，如ANN中權值等； validation set是用來做模型選擇（model selection），即做模型的最終優化及确定的，如ANN的結構；而 test set則純粹是為了測試已經訓練好的模型的推廣能力。當然，test set這并不能保證模型的正确性，他隻是說相似的資料用此模型會得出相似的結果。但實際應用中，一般隻将資料集分成兩類，即training set 和test set，大多數文章并不涉及validation set。

一個典型的劃分是訓練集占總樣本的50％，而其它各占25％，三部分都是從樣本中随機抽取。

樣本少的時候，上面的劃分就不合适了。常用的是留少部分做測試集。然後對其餘N個樣本采用K折交叉驗證法。就是将樣本打亂，然後均勻分成K份，輪流選擇其中K－1份訓練，剩餘的一份做驗證，計算預測誤差平方和，最後把K次的預測誤差平方和再做平均作為選擇最優模型結構的依據。特别的K取N，就是留一法（leave one out）。

附上一段僞代碼：

【ML入門系列】（一）訓練集、測試集和驗證集

繼續閱讀

如果你想要學習深度學習，但是不知道從何入手，那麼《每天五分鐘深度學習》專欄一定是你不容錯過的學習資源。這個專欄包含了神經

tensorflow學習——keras進階API——序列模型Sequential

SVD原理和案例(奇異值分解)

連續兩年入圍全球Gartner ABI魔力象限，Quick BI在商業智能領域究竟有何魔力？1、互動式的分析和可視化2、建構資料故事3、釘釘內建4、增強分析Quick BI

技術解密｜阿裡雲多媒體 AI 團隊是憑借什麼拿下 CVPR2021 5冠1亞的？頂級挑戰賽戰績顯赫四大挑戰的關鍵技術探索基于視訊了解技術打造多媒體 AI 雲産品

算法專家解讀 | 開放搜尋教育搜題能力和實踐

Keras使用分批疊代（fit_generate）的方式訓練資料

圖像分割UNet系列------UNet3+（UNet3plus）詳解

圖像分割UNet系列------UNet詳解

特征：什麼是特征和特征選擇？

Pytorch(二) Tensor Tensor的建立Tensor是什麼Tensor的建立

2023了，學習深度學習架構哪個比較好？

VGGNet------超經典神經網絡結構與PyTorch實作

tensorflow學習——（imdb資料集）文本分類first_2.py

Matlab深度學習-手寫體數字識别Matlab深度學習前言一、MNIST手寫體數字資料二、用到的深度學習架構-LeNet5三、代碼最後

K-近鄰算法以及圖像分類應用