天天看點

回歸分析之理論篇一:一些名詞定義二:什麼是回歸(分析)三:回歸中困難點

轉載請注明出處:http://blog.csdn.net/gamer_gyt

部落客微網誌:http://weibo.com/234654758

Github:https://github.com/thinkgamer

2015年的機器學習部落格其實都是看《機器學習實戰》這本書時學到的,說實話當時也是知其然,不知其是以然,以至于對其了解不深刻,好多細節和理論知識都搞的是亂七八糟,自從工作之後再去看一個算法,思考的比之前多了點,檢視資料也比之前多了點,生怕了解錯誤,影響其他人,當然在了解的程度上還是不夠深刻,這也是一個學習的過程吧,記錄一下,歡迎指正。

一:一些名詞定義

1)指數分布族

指數分布族是指可以表示為指數形式的機率分布。

f X ( x ∣ θ ) = h ( x ) exp ⁡ ( η ( θ ) ⋅ T ( x ) − A ( θ ) ) f_X(x\mid\theta) = h(x) \exp \left (\eta(\theta) \cdot T(x) -A(\theta)\right ) fX​(x∣θ)=h(x)exp(η(θ)⋅T(x)−A(θ))

其中,η為自然參數(nature parameter),T(x)是充分統計量(sufficient statistic)。當參數A,h,T都固定以後,就定義了一個以η為參數的函數族。

伯努利分布與高斯分布是兩個典型的指數分布族

伯努利分布

又名兩點分布或者0-1分布,是一個離散型機率分布。假設1的機率為p,0的機率為q,則

其機率品質函數為:

KaTeX parse error: Undefined control sequence: \mbox at position 68: …egin{matrix}p&{\̲m̲b̲o̲x̲{if }}x=1,\\q\ …

其期望值為:

E ⁡ [ X ] = ∑ i = 0 1 x i f X ( x ) = 0 + p = p {\displaystyle \operatorname {E} [X]=\sum _{i=0}^{1}x_{i}f_{X}(x)=0+p=p} E[X]=i=0∑1​xi​fX​(x)=0+p=p

其方差為:

var ⁡ [ X ] = ∑ i = 0 1 ( x i − E [ X ] ) 2 f X ( x ) = ( 0 − p ) 2 ( 1 − p ) + ( 1 − p ) 2 p = p ( 1 − p ) = p q {\displaystyle \operatorname {var} [X]=\sum _{i=0}^{1}(x_{i}-E[X])^{2}f_{X}(x)=(0-p)^{2}(1-p)+(1-p)^{2}p=p(1-p)=pq} var[X]=i=0∑1​(xi​−E[X])2fX​(x)=(0−p)2(1−p)+(1−p)2p=p(1−p)=pq

正态分布(高斯分布)

若随機變量X服從一個位置參數為 μ {\displaystyle \mu } μ 、尺度參數為 ${\displaystyle \sigma } $ 的機率分布,記為:

X ∼ N ( μ , σ 2 ) , X \sim N(\mu,\sigma^2), X∼N(μ,σ2),

其機率密度函數為:

f ( x ) = 1 σ 2 π   e − ( x − μ ) 2 2 σ 2 f(x) = {1 \over \sigma\sqrt{2\pi} }\,e^{- {{(x-\mu )^2 \over 2\sigma^2}}} f(x)=σ2π

​1​e−2σ2(x−μ)2​

正态分布的數學期望值或期望值$ {\displaystyle \mu } $ 等于位置參數,決定了分布的位置;其方差 $ {\displaystyle \sigma ^{2}} $ 的開平方或标準差$ {\displaystyle \sigma }$ 等于尺度參數,決定了分布的幅度。

标準正态分布:

如果$ {\displaystyle \mu =0} $ 并且 $ {\displaystyle \sigma =1} $ 則這個正态分布稱為标準正态分布。簡化為:

f ( x ) = 1 2 π   exp ⁡ ( − x 2 2 ) f(x) = \frac{1}{\sqrt{2\pi}} \, \exp\left(-\frac{x^2}{2} \right) f(x)=2π

​1​exp(−2x2​)

如下圖所示:

![image](https://imgconvert.csdnimg.cn/aHR0cHM6Ly91cGxvYWQud2lraW1lZGlhLm9yZy93aWtpcGVkaWEvY29tbW9ucy90aHVtYi8xLzFiL05vcm1hbF9kaXN0cmlidXRpb25fcGRmLnBuZy82NTBweC1Ob3JtYWxfZGlzdHJpYnV0aW9uX3BkZi5wbmc?x-oss-process=image/format,png) 正态分布中一些值得注意的量:

  • 密度函數關于平均值對稱
  • 平均值與它的衆數(statistical mode)以及中位數(median)同一數值。
  • 函數曲線下68.268949%的面積在平均數左右的一個标準差範圍内。
  • 95.449974%的面積在平均數左右兩個标準差 $ {\displaystyle 2\sigma } $ 的範圍内。
  • 99.730020%的面積在平均數左右三個标準差$ {\displaystyle 3\sigma } $ 的範圍内。
  • 99.993666%的面積在平均數左右四個标準差$ {\displaystyle 4\sigma } $ 的範圍内。
  • 函數曲線的反曲點(inflection point)為離平均數一個标準差距離的位置。

2)多重共線性和完全共線性

多重共線性:指線性回歸模型中的解釋變量之間由于存在精确相關關系或高度相關關系而使模型估計失真或難以估計準确。一般來說,由于經濟資料的限制使得模型設計不當,導緻設計矩陣中解釋變量間存在普遍的相關關系。通俗點了解就是自變量裡邊有一些是打醬油的,可以由另外一些變量推導出來,當變量中存在大量的多重共線性變量就會導緻模型誤差很大,這個時候就需要從自變量中将“打醬油”的變量給剔除掉。

完全共線性:在多元回歸中,一個自變量是一個或多個其他自變量的線性函數。

兩者在某種特殊情況下是有交集的。

3)T檢驗

T檢驗又叫student T 檢驗,主要用于樣本含量小,總标準差 σ \sigma σ 未知的正太分布資料。T檢驗是用于小樣本的兩個平均值差異程度的檢查方法,他是用T分布理論值來推斷事件發生的機率,進而判斷兩個平均數的差異是否顯著。

參考: http://blog.csdn.net/shulixu/article/details/53354206

4)關系

  • 函數關系
确定性關系,y=3+2x
  • 相關關系
非确定性關系,比如說高中時數學成績好的人,一般實體成績也好,這是因為它們背後使用的都是數學邏輯,這種酒叫做非确定性關系。

5)虛拟變量

定義:

又稱虛設變量、名義變量或啞變量,用以反映質的屬性的一個人工變量,是量化了的自變量,通常取值為0或1。(通常為離散變量,因子變量)

作用:

引入啞變量可使線形回歸模型變得更複雜,但對問題描述更簡明,一個方程能達到兩個方程的作用,而且接近現實。

設定:

例如:體重(w)和身高(h),性别(s)的關系,但這裡性别并非連續的或者數字可以表示的變量,你并不能拿 1表示男,2表示女,這裡的性别是離散變量,隻能為男或者女,是以這裡就需要引入啞變量來處理。

性别(s) =》 isman(男1,非男0),iswoman (因為隻有兩種可能,是以這裡隻需要引入一個啞變量即可),同理假設這裡有另外一個變量膚色(有黑,白,黃三種可能),那麼這裡隻需引入兩個啞變量即可(isblack,iswhite),因為不是這兩種的話那肯定是黃色皮膚了。

例子:

針對上邊所說的體重和身高,性别的關系。

構模組化型:

  • 1)加法模型
w = a + b * h + c * isman
           

針對資料樣本而言,性别是确定的,是以 c * isman 的結果不是c就是0,是以在加法模型下,影響的是模型在y軸上的截距。這說明的是針對不同的性别而言,回歸方程是平衡的,隻不過是截距不一樣。

  • 2)乘法模型
w = a + b * h + c * isman * h + d * iswoman * h
           

同樣針對資料樣本而言,性别也是确定的,假設一個男性,isman 為1,iswoman 為0,則上述模型變成了 w = a + b*h + c * h =a + (b+c) * h,這個時候就是在y軸上的截距一樣,而斜率不一緻。

  • 3)混合模型
w = a + b * h + c * isman + d * iswoman + e * isman * h + f * iswoman * h
           

假設一個針對一個性别為男的樣本資料,該模型變可以變成 w = a + b*h + c + e * h = a +c + (b+e)*h,這個時候斜率和截距都是不一樣的。

二:什麼是回歸(分析)

回歸就是利用樣本(已知資料),産生拟合方程,進而(對未知資料)進行預測。比如說我有一組随機變量X(X1,X2,X3…)和另外一組随機變量Y(Y1,Y2,Y3…),那麼研究變量X與Y之間的統計學方法就叫做回歸分析。當然這裡X和Y是單一對應的,是以這裡是一進制線性回歸。

回歸分為線性回歸和非線性回歸,其中一些非線性回歸可以用線性回歸的方法來進行分析的叫做廣義線性回歸,接下來我們來了解下每一種回歸:

1)線性回歸

線性回歸可以分為一進制線性回歸和多元線性回歸。當然線性回歸中自變量的指數都是1,這裡的線性并非真的是指用一條線将資料連起來,也可以是一個二維平面,三維平面等。

一進制線性回歸:自變量隻有一個的回歸,比如說北京二環的房子面積(Area)和房子總價(Money)的關系,随着面積(Area)的增大,房屋價格也是不斷增長。這裡的自變量隻有面積,是以這裡是一進制線性回歸。

多元線性回歸:自變量大于等于兩個,比如說北京二環的房子面積(Area),樓層(floor)和房屋價格(Money)的關系,這裡自變量是兩個,是以是二進制線性回歸,三元,多元同理。

2)非線性回歸

有一類模型,其回歸參數不是線性的,也不能通過轉換的方法将其變為線性的參數,這類模型稱為非線性回歸模型。非線性回歸可以分為一進制回歸和多元回歸。非線性回歸中至少有一個自變量的指數不為1。回歸分析中,當研究的因果關系隻涉及因變量和一個自變量時,叫做一進制回歸分析;當研究的因果關系涉及因變量和兩個或兩個以上自變量時,叫做多元回歸分析。

3)廣義線性回歸

一些非線性回歸可以用線性回歸的方法來進行分析叫做廣義線性回歸。

典型的代表是Logistic回歸。

4)如何衡量相關關系既判斷适不适合使用線性回歸模型?

使用相關系數(-1,1),絕對值越接近于1,相關系數越高,越适合使用線性回歸模型(Rxy>0,代表正相關,Rxy<0,代表負相關)

r X Y = ∑ ( X i − X ˉ ) ( Y i − Y ˉ ) ∑ ( X i − X ˉ ) 2 ) ∑ ( Y i − Y ˉ ) 2 ) r_{XY} = \frac{ \sum (X_{i}-\bar{X})(Y_{i}-\bar{Y}) }{ \sqrt{ \sum (X_{i}-\bar{X})^2) \sum (Y_{i}-\bar{Y})^2) } } rXY​=∑(Xi​−Xˉ)2)∑(Yi​−Yˉ)2)

​∑(Xi​−Xˉ)(Yi​−Yˉ)​

三:回歸中困難點

1)標明變量

假設自變量特别多,有一些是和因變量相關的,有一些是和因變量不相關的,這裡我們就需要篩選出有用的變量,如果篩選後變量還特别多的話,可以采用降維的方式進行變量縮減(可以參考之前的PCA降維的文章:http://blog.csdn.net/gamer_gyt/article/details/51418069 ,基本是整理《機器學習實戰》這本書的筆記)

2)發現多重共線性

(1).方差擴大因子法( VIF)

一般認為如果最大的VIF超過10,常常表示存在多重共線性。

(2).容差容忍定法

如果容差(tolerance)<=0.1,常常表示存在多重共線性。

(3). 條件索引

條件索引(condition index)>10,可以說明存在比較嚴重的共線性

3)過拟合與欠拟合問題

過拟合和欠拟合其實對每一個模型來講都是存在的,過拟合就是模型過于符合訓練資料的趨勢,欠拟合就是模型對于訓練資料和測試資料都表現出不好的情況。針對于欠拟合來講,是很容易發現的,通常不被讨論。

在進行模型訓練的時候,算法要進行不斷的學習,模型在訓練資料和測試資料上的錯誤都在不斷下降,但是,如果學習的時間過長的話,模型在訓練資料集上的表現将會繼續下降,這是因為模型已經過拟合,并且學習到了訓練資料集中不恰當的細節和噪音,同時,測試集上的錯誤率開始上升,也是模型泛化能力在下降。

這個完美的臨界點就在于測試集中的錯誤率在上升時,此時訓練集和測試集上都有良好的表現。通常有兩種手段可以幫助你找到這個完美的臨界點:重采樣方法和驗證集方法。

如何限制過拟合?

過拟合和欠拟合可以導緻很差的模型表現。但是到目前為止大部分機器學習實際應用時的問題都是過拟合。

過拟合是個問題因為訓練資料上的機器學習算法的評價方法與我們最關心的實際上的評價方法,也就是算法在位置資料上的表現是不一樣的。

當評價機器學習算法時我們有兩者重要的技巧來限制過拟合

使用重采樣來評價模型效能

保留一個驗證資料集

最流行的重采樣技術是k折交叉驗證。指的是在訓練資料的子集上訓練和測試模型k次,同時建立對于機器學習模型在未知資料上表現的評估。

驗證集隻是訓練資料的子集,你把它保留到你進行機器學習算法的最後才使用。在訓練資料上選擇和調諧機器學習算法之後,我們在驗證集上在對于模型進行評估,以便得到一些關于模型在未知資料上的表現的認知。

4)檢驗模型是否合理

驗證目前主要采用如下三類辦法:

1、拟合優度檢驗

主要有R^2,t檢驗,f檢驗等等

這三種檢驗為正常驗證,隻要在95%的置信度内滿足即可說明拟合效果良好。

2、預測值和真實值比較

主要是內插補點和比值,一般內插補點和比值都不超過5%。

3、另外的辦法

GEH方法最為常用。GEH是Geoffrey E. Havers于1970年左右提出的一種模型驗證方法,其巧妙的運用一個拟定的公式和标準界定模型的拟合優劣。

GEH=(2(M-C)2/(M+C))(1/2)

其中M是預測值,C是實際觀測值

如果GEH小于5,認為模型拟合效果良好,如果GEH在5-10之間,必須對資料不可靠需要進行檢查,如果GEH大于10,說明資料存在問題的幾率很高。

http://blog.sina.com.cn/s/blog_66188c300100hl45.html

5)線性回歸的模型評判

  • 誤差平方和(殘差平方和)

例如二維平面上的一點(x1,y1),經過線性回歸模型預測其值為 y_1,那麼預測模型的好與壞就是計算預測結果到直線的距離的大小,由于是一組資料,那麼便是這一組資料的和。

點到直線的距離公式為:

∣ A x 0 + B y 0 + C ∣ A 2 + B 2 \frac{\left | A_{x_{0}}+B_{y_{0}} +C \right |}{\sqrt{A^2 + B^2 }} A2+B2

​∣Ax0​​+By0​​+C∣​

由于涉及到開方,在計算過程中十分不友善,是以這裡轉換為縱軸上的內插補點,即利用預測值與真實值的差進行累加求和,最小時即為最佳的線性回歸模型,但是這裡涉及到預測值與真實值的差可能為負數,是以這裡用平方,是以最終的誤差平方和為:

R S S = ∑ i = 1 n ( y i − y i ^ ) 2 = ∑ i = 1 n [ y i − ( α + β x i ) ] 2 RSS = \sum_{i=1}^{n}(y_{i}- \hat{y_{i}} )^2 = \sum_{i=1}^{n}[y_{i} - (\alpha +\beta x_{i})]^2 RSS=i=1∑n​(yi​−yi​^​)2=i=1∑n​[yi​−(α+βxi​)]2

  • AIC準則(赤池資訊準則)
AIC=n ln (RSSp/n)+2p
           

n為變量總個數,p為選出的變量個數,AIC越小越好

【技術服務】,詳情點選檢視: https://mp.weixin.qq.com/s/PtX9ukKRBmazAWARprGIAg

回歸分析之理論篇一:一些名詞定義二:什麼是回歸(分析)三:回歸中困難點

掃一掃 關注微信公衆号!号主 專注于搜尋和推薦系統,嘗試使用算法去更好的服務于使用者,包括但不局限于機器學習,深度學習,強化學習,自然語言了解,知識圖譜,還不定時分享技術,資料,思考等文章!

繼續閱讀