面試的時候被問到,線上性回歸中,有三個假設,是哪三個?
當時回答出來自變量x和因變量y之間是線性變化關系,也就是說,如果x進行線性變化的話,y也會有相應的線性變化。
提到資料樣本的時候也答道了樣本點之間要求是獨立同分布的(根據mle準則,假定對樣本加上高斯白噪聲e的情況下)。
但是第三個最終還是沒有答上來,面試官也沒有再給提示,是以回來自己再查一下。
lr的wiki頁面(http://en.wikipedia.org/wiki/linear_regression)中,有提到了lr的假設,分别是:
weak exogeneity:弱外生性。看意思是說假設用來預測的自變量x是沒有測量誤差的。這一假設當然是不現實的,不過如果沒有這個假設的話,模型的複雜度會大大增加。
linearity:線性。就是因變量y是多個自變量x之間的線性組合。
constant variance (aka homoscedasticity):同方差性。意思是說不同的因變量x的方差都是相同的。
independence of errors:誤差獨立性。即是變量之間是獨立的(有些方法可以處理變量之間不獨立的情況,如generalized least squares等)。
lack of multicollinearity in the predictors:預測變量之中沒有多重共線性。多重共線性意思是說,this can be triggered by having two or more perfectly correlated predictor variables (e.g. if the same predictor variable is mistakenly given twice, either without transforming one of the copies
or by transforming one of the copies linearly). it can also happen if there is too little data available compared to the number of parameters to be estimated (e.g. fewer data points than regression coefficients). 其後果是:in the case of multicollinearity, the
parameter vector β will be non-identifiable—it has no unique solution. 我的了解是說,沒有特征之間的交叉或者多次重複某些互相相關的特征。其實感覺,如果有特征交叉或多次重複相關特征的話,應該就是非線性模型了。當時上課的時候李老師在如何用線性回歸模型來描述非線性特征中提到了,就是使用特征交叉、對同一個feature分區間改變權重(區間之間也可以交叉)一類的方法。如果這樣導緻特征過多、計算量大,而想要降低次元的話,可以使用聚類來把相似特征聚到一起,或者使用l1範數來進行特征選擇。
感覺這幾個假設中,我提到了線性假設(線性假設應該也算是包含了沒有多重共線性吧,個人猜測),獨立同分布假設中應該算是包含了同方差性、誤差獨立性。是以,可能沒提到的那個指的是弱外生性,也就是假設樣本點的取得是沒有測量誤差的,這一個假設一般現實中都不滿足,但是都會假設滿足來降低模型複雜度。