機器學習筆記——資料集分割

2018-09-24 23:50:00

在模型訓練之前，要首先劃分訓練集與測試集，如何對原始資料集進行訓練集與測試集的劃分？訓練集與測試集的比例各占多少？如何保證各自内部标簽分布平衡都會影響模型訓練的最終效果。

好在R和Python中有現成的資料集分割函數，避免手動寫函數導緻劃分比例不合理、訓練集與測試集的樣本的結構與總體不均衡的問題。

R語言中caTools包中的sample.split函數可以用來自動将原始資料集分割成訓練集和測試集。

方法一——caTools中的sample.split函數

library("caTools")
set.seed(123)

data(iris)
table(iris$Species)

 setosa versicolor virginica 
 50 50 50

split = sample.split(iris$Species,SplitRatio = .8)
train_data = subset(iris,split == TRUE)
test_data = subset(iris,split == FALSE)

table(train_data$Species)
 setosa versicolor virginica 
 40 40 40

table(test_data$Species)
 setosa versicolor virginica 
10 10 10

劃分方法二——createDataPartition函數

library("caret")
split1 <- createDataPartition(y=iris$Species,p=0.8,list = FALSE)

train_data <- iris[split1,]
table(train_data$Species)
 setosa versicolor virginica 
 40 40 40 


test_data <- iris[-split1,]
table(test_data$Species)
 setosa versicolor virginica 
 10 10 10

可以看到無論是caTools包中的sample.split函數還是caret包中的createDataPartition函數，都針對分類标簽做了混合後的分層随機抽樣，這樣可以保證訓練集與測試集内的各類标簽分布比例與樣本總體的分布比例嚴格一緻，否則如果僅僅使用sample函數，無法達到分層随機抽樣的目的。

Python的sk-learn庫中也有現成的資料集分割工具可用。

from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
data = iris['data']
iris_data = pd.DataFrame(
 data = data,
 columns = ['sepal_length','sepal_width','petal_length','petal_width']
 )
iris_data["Species"] = iris[ 'target']
iris_data["Species"] = iris_data["Species"].map({0:"setosa",1:"versicolor",2:"virginica"})

iris_data["Species"].value_counts()
versicolor 50
virginica 50
setosa 50
Name: Species, dtype: int64

x,y = iris_data.iloc[:,0:-1],iris_data.iloc[:,-1]
train_data,test_data,train_target,test_target = train_test_split(x,y,test_size = 0.2,stratify = y)

train_target.value_counts()
test_target.value_counts()

這裡有一個細節，其中train_test_split函數中有兩個特殊的參數：shuffle和stratify。

shuffle參數相當于對原始資料進行混合抽樣，相當于撲克牌發牌前的洗牌，保證随機性。

stratify參數則可以保證訓練集&測試集中樣本标簽結構比例與指定的總體中樣本标簽結構比例一緻，特别是在原始資料中樣本标簽分布不均衡時非常有用，達到分層随機抽樣的目的。

而對于訓練集與測試集的劃分比例上來看，目前沒有一個統一的比例标準，在機器學習類的參考資料中，推薦的比例是訓練集和測試集的比例保持在1:2~1:4之間為佳。

倘若使用驗證集，則建議保持6:2:2左右的訓練集、驗證集及測試集比例。

原文釋出時間為：2018-09-23

本文作者：杜雨

本文來自雲栖社群合作夥伴“

資料小魔方

”，了解相關資訊可以關注“

”。

機器學習筆記——資料集分割

繼續閱讀

來自python的【條件控制/語句循環/break/continue/else/pass】一、條件控制二、語句循環

無法解析的外部符号 wmain，該符号在函數 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink導出用例轉換工具(XML2Excel)

YAML簡介和PyYAML安全操作YAML支援的類型YAML的優點：yaml的基本文法python操作

Small tricks

libsvm for python 安裝

學習軟體測試基礎測試第七天

Zeppelin 配置通路 REST APIApache Zeppelin Configuration REST API

【Torch】最簡潔logging使用指南

27. Remove Element(清單)題目代碼

Cloud Studio初體驗

使用 ctypes 進行 Python 和 C 的混合程式設計

【python】【資料處理】畫多元資料分布圖

【python】netconf協定對接管理裝置

「Python 網絡自動化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 網絡裝置

在python中建立excel并寫入