同樣來自哥大的工程課程machine learning,這是一堂由IBM的首席研究員講授的機器學習課程。
頭圖是諧音爛梗,2017年學校附近的小破電影院重映了Emma Watson的 Regression(中文叫做回溯迷蹤,電影老套又平庸),我們這次使用的模型也叫做Regression。。。
背景:研究即将接受根治性前列腺切除術的男性前列腺特異性抗原水準與一些臨床名額之間的相關性 (拜托,這種資料超硬核的好不好)。
該資料集來自斯坦福大學的Stamey et al. (1989)
data:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.data
description:https://statweb.stanford.edu/~tibs/ElemStatLearn/datasets/prostate.info.txt
變量包括對數癌症體積(lcavol)、對數前列腺重量(lweight)、年齡、良性前列腺增生量(lbph)、精囊浸潤(svi)、包膜穿透率(lcp)、Gleason評分(Gleason)和Gleason分數4或5的百分比(pgg45)。(注意:svi是一個二進制變量,gleason是一個有序分類變量)
現在讓我們擴充第2到9列的資料,因為第一列是觀測ID沒啥意義,第10列是“訓練集”辨別也沒啥意義。我們現在需要将資料進行組合,以生成合格的訓練和測試資料集。
要小心,因為R的Dply包中的重命名函數很容易出錯。我們需要給組合的列9一個名稱,使其成為我們的因變量。當我們将資料集組合為data frame這一格式時,名稱“V9”自動配置設定給第9列,這還挺友善。
如果我們跳過函數“as.data.frame”,則列9沒有名稱(null),Dply的重命名函數将崩潰。後續就是老套的回歸訓練啦,這裡不做展開。