<b>2.8 小結</b>
<b></b>
在本章,我們學習了線性回歸,這是一種讓我們能在有監督學習環境下拟合線性模型的方法,在這種環境下,我們有一些輸入特征和一個數值型的輸出。簡單線性回歸是對隻有一個輸入特征的情況的命名,而多元線性回歸則描述了具有多個輸入特征的情況。線性回歸是解決回歸問題很常用的第一步驟。它假定輸出是輸入特征的線性權重組合,再加上一個無法化簡、符合正态分布、具有0均值和常數方差的誤差項。這種模型也假設特征是互相獨立的。線性回歸的性能可以通過一組不同的衡量名額來進行評價,從更标準的mse到諸如r2 統計量等其他名額。我們探讨了幾種模型診斷和顯著性檢驗方法,它們用于檢測從不成立的假設到離群值等問題。最後,我們還讨論了如何用逐漸回歸進行特征選擇,以及利用嶺回歸和lasso進行正則化。
線性回歸模型具有多種優勢,包括快速和開銷小的參數計算過程,以及易于解釋和推斷的模型,這是因為它具有形式簡單的優點。有很多檢驗方法可以用來診斷關于模型拟合的問題,并對系數的顯著性進行假設檢驗。總體來說,可以認為它是低方差的一種方法,因為它對于資料中的小誤差比較健壯(robust)。就其不足之處而言,因為它作出了非常嚴格的假設,尤其是輸出函數在模型參數裡必須是線性的,是以它就會引入很高程度的偏誤,對于比較複雜或高度非線性的一般函數,這種方法往往就表現不佳。此外,我們也看到了,當輸入特征數量變得很多時,我們就不能依賴于系數的顯著性檢驗。當我們在一個高維特征空間裡工作時,這個事實再加上特征之間的獨立性假設,就會使線性回歸成為相對較差的一種選擇。
在下一章,我們會學習邏輯回歸,它是一種用于分類問題的重要方法。