天天看點

周志華機器學習課後習題解析【第二章】

2.1 資料集包含 1000 個樣本,其中 500 個正例、 500 個反例,将其劃分為包含 70% 樣本的訓練集和 30% 樣本的測試集用于留出法評估,估算有多少種劃分方式。

答:排列組合問題。

訓練/測試集的劃分要盡可能儲存資料分布一緻

那麼訓練集中應該包括350個正例和350個反例,剩餘的作測試集,那麼劃分方式應該有

周志華機器學習課後習題解析【第二章】

種。

2.2 資料集包含100個樣本,其中正反例各一半,假定學習算法所産生的模型是将新樣本預測為訓練樣本數較多的類别(訓練樣本數相同時進行随機猜測),試給出用10折交叉驗證法和留一法分别對錯誤率進行評估所得的結果。

答:

10折交叉驗證:交叉驗證中每個子集資料分布要盡可能保持一緻,那麼本題中10次訓練中每次正反例各占45,模型訓練結果随機猜測,錯誤率期望為50%。

留一法:若留出樣本為正例,訓練集中則有50個反例和49個正例,模型預測為反例;反之留出樣本為反例,模型預測為正例,錯誤率為100%。

2.3 若學習器A的F1值比學習器B高,試析A的BEP值是否也比B高。

說一下自己了解吧

先看看F1值的定義,

周志華機器學習課後習題解析【第二章】
周志華機器學習課後習題解析【第二章】

即查全率(又稱召回率Recall),【預測為正例且真實為正例的數量】/【真實為正例的數量】。F1值計算中對查準率和查全率都同等重視。

再看看BEP值

首先目前很多分類算法輸出的都是0-1之間的一個機率值,比如邏輯回歸、xgboost等,分類時的做法是預定一個門檻值(典型為0.5),若對樣本的輸出大于此門檻值則歸為1類(即正例),那麼根據樣本的輸出值從大到小排序(下文簡稱為“樣本的排序”),排在最前面的即可了解為最有可能為正例的樣本,而排在最後的是最不可能為正例的樣本。從前往後,逐個将樣本預測為正例(即把目前樣本的輸出值定于為門檻值,小于門檻值的都為反例),每次計算目前的查準率和查全率,即可得到查全率為橫坐标查準率為縱坐标上的一個點,在将所有點按順利連接配接後即可得到“P-R曲線”,而BEP(即Break-Event Point,平衡點)是在查全率=查準率時的取值。

周志華機器學習課後習題解析【第二章】

P-R曲線

讨論:

從定義上看,F1值是在門檻值固定時,将所有樣本分類完成後,綜合查全率和查準率得出的值;而BEP值則是尋求一個門檻值使得查全率和查準率相同的情況下得到的(此時BEP = 查全率 = 查準率)。

也就是說BEP值和“樣本的排序”緊密相關的,而和樣本的預測值大小無關,同樣的排序,即使将所有預測值同時乘以0.5,其BEP值也是相同的;但是對于F1值,所有樣本都将預測為負例(假定門檻值為0.5時),此時F1值為0。

回到題目本身,“若學習器A的F1值比學習器B高,則A的BEP值比B高”,那麼若能找到兩個學習器BEP值相同,而F1值不同,則題目命題就不成立了。那從上面的讨論中已經有了答案了,想象一下學習器A對樣本輸出值均為學習器B的兩倍,兩者BEP值是相同的,A的輸出在(0,1)之間,而B的輸出在(0,0.5)之間,此時B的 F1 值為0,A的 F1 值是在0-1之間。是以原命題不成立。

ps.個人從直覺上BEP值和F1值是沒有明确關系的,在讨論過程中拿“輸出值乘以0.5”為例,事實上,想象一下,一串固定排序的點(模型的輸出機率值),隻在0-1之間同時前進或者後退(每個點前進步長可以不一樣,但是排序不變),其BEP值也不會發生變化,而F1值是不斷變化的。

2.4 試述真正例率(TPR)、假正例率(FPR)與查準率(P)、查全率(R)之間的聯系。

周志華機器學習課後習題解析【第二章】

2.5 試證明(2.22)AUC=1−lrank

顯然,在ROC曲線中,一條橫線對應一個(或多個)負樣本 

周志華機器學習課後習題解析【第二章】

, 一條豎線對應一個(或多個)正樣本 

周志華機器學習課後習題解析【第二章】

, 而一條斜線則對應多個正負樣本 

周志華機器學習課後習題解析【第二章】

,且 

周志華機器學習課後習題解析【第二章】

,即樣本的預測值相同。如下圖所示:

周志華機器學習課後習題解析【第二章】
周志華機器學習課後習題解析【第二章】
周志華機器學習課後習題解析【第二章】

2.6 試述錯誤率和ROC曲線的聯系

答:錯誤率是在門檻值固定的情況下得出的,ROC曲線是在門檻值随着樣本預測值變化的情況下得出的。ROC曲線上的每一個點,都對應着一個錯誤率。

2.7 試證明任意一條ROC曲線都有一條代價曲線與之對應,反之亦然

首先“任意一條ROC曲線都有一條代價曲線與之對應”,顯然ROC曲線上每個點(FPR,TPR)都對應着下圖中一條線段,取所有線段的下屆,即可得到唯一的代價曲線。

周志華機器學習課後習題解析【第二章】

反之,代價曲線實際上是一個多邊形(在有限樣本下),易了解,每條邊都對應代價平面上一條線段,實際上從左向右周遊每一條邊,即可得到ROC曲線上從左到右每一個點。

ps. ROC曲線對應着唯一條代價曲線,但是一條代價曲線可對應着多條不同的ROC曲線,如上圖中,在綠、黃、藍三條線段交于紅點時,此時去掉黃色線段代價曲線是不會發生變化的,但是ROC曲線則會少一個點。

2.8 Min-max 規範化和z-score 規範化的優缺點。

Min-max 規範化優點1、計算相對簡單一點。2、當新樣本進來時,隻有在新樣本大于原最大值或者小于原最小值時,才需要重新計算規範化之後的值。缺點在于1、容易受高杠杆點和離群點影響。

z-score 規範化優點在于。1、對異常值敏感低。缺點在于1、計算更負責。2、每次新樣本進來都需要重新計算規範化。

2.9 簡述

周志華機器學習課後習題解析【第二章】

檢驗過程

2.10 試述Friedman 檢驗中使用式(2.34)和(2.35)的差別。

略。沒學過統計學。以後有機會再補。

繼續閱讀