天天看點

R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

1.觀察資料集

R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

選取資料集中前6個資料,我們可以看出iris資料集一共有5個字段。

R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

iris資料集一共有150條資料,5個字段

R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

觀察各個變量的内容,可以看出前四個變量(Sepal.Length Sepal.Width Petal.Length Petal.Width)都是定量變量,而最後一個(Species)是定性變量,我們将依據最後一個變量作為分層抽樣的依據。

載入分層抽樣的包sampling

計算每一個種類的抽樣數目。這裡我們按照每種“Species”抽取3/5個樣本進行抽樣。

sub_train=strata(iris,stratanames=("Species"),size=rep(n,),method="srswor")
head(sub_train)
           

stratanames參數是抽樣依據的變量,size參數是每個種類抽樣的數目,這裡我們用上一步計算出來的n作為抽樣數目,method是抽樣方法,我們選擇srswor。

data_train=iris[sub_train$ID_unit,]
data_test=iris[-sub_train$ID_unit,]
           

将抽樣結果分别定義為訓練集(data_train)和測試集(data_test)。

dim(data_train); dim(data_test)
           
R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

觀察訓練集和測試集的字段和資料數目。符合我們的抽樣預期。

R語言實作分層抽樣(Stratified Sampling)以iris資料集為例

觀察訓練集和測試集的前幾條資料。

檢視總的抽樣結果,這裡資料量太大不再給出。

write.csv(data_train,"C:/Users/cnrozh/Desktop/iris_data_train.csv")
write.csv(data_test,"C:/Users/cnrozh/Desktop/iris_data_test.csv")
           

儲存資料集