線性回歸算法梳理
- 任務1 - 線性回歸算法梳理
-
- 一、基本概念
- 二、線性回歸的原理
- 三、線性回歸損失函數、代價函數、目标函數
- 四、優化方法(梯度下降法、牛頓法、拟牛頓法等)
- 五、線性回歸的評估名額
- 六、sklearn參數詳解
任務1 - 線性回歸算法梳理
1、機器學習的一些概念 有監督、無監督、泛化能力、過拟合、欠拟合(方差和偏差以及各自解決辦法)、交叉驗證
2、線性回歸的原理
3、線性回歸損失函數、代價函數、目标函數
4、優化方法(梯度下降法、牛頓法、拟牛頓法等)
5、線性回歸的評估名額
6、sklearn參數詳解
一、基本概念
1監督學習:從标注資料中學習預測模型的機器學習問題。
标注資料表示輸入輸出的對應關系,預測模型對給定的輸入産生相應地輸出。監督學習的本質是學習輸入到輸出的映射的統計規律。
2無監督學習:從無标注資料中學習預測模型的機器學習問題。
無标注資料是自然得到的資料,預測模型表示資料的類别、轉換或機率。無監督學習的本質是學習資料中的統計規律或潛在結構。
3泛化能力:是指由該方法學習到的模型對未知資料的預測能力。
4過拟合:如果一味追求提高對訓練資料的預測能力,所選模型的複雜度往往會比真模型要高,這種現象稱為過拟合。也即,過拟合指學習時選擇的模型所包含的參數過多,以至于出現這一模型對已知資料預測得很好,但對未知資料預測得很差的現象。
5欠拟合:所選模型過于簡單,對未知資料的預測能力很差的現象。
6交叉驗證:基本思想是重複地使用資料;把給定的資料進行切分,将切分出的資料集分為訓練集和資料集,在此基礎上反複訓練、測試以及模型選擇。
二、線性回歸的原理
其中, x1,x2,…,xn表示變量(特征分量),y表示因變量,θ1,θ2,…,θn表示對應變量(特征)的權重,θ0是偏倚項(稱為截距)。
對于參數 ,在實體上可以解釋為:在自變量(特征)之間互相獨立的前提下,θi 反映自變量x對因變量y的影響程度, θi越大,說明xi對結果y的影響越大。是以,我們可以通過每個自變量(特征)前的參數,可以很直覺的看出那些特征分量對結果的影響的大小。
三、線性回歸損失函數、代價函數、目标函數
這個損失函數用的是的預測值與真實值之差的平方和。
線性回歸誤差平方損失極小化與極大似然估計等價。其實在機率模型中,目标函數的原函數(或對偶函數)極小化(或極大化)與極大似然估計等價,這是個帶有普遍性的結論。比如在最大熵模型中,有對偶函數極大化與極大似然估計等價的結論。
四、優化方法(梯度下降法、牛頓法、拟牛頓法等)
梯度下降法和牛頓法來自李航老師的《統計學習方法》一書,如下圖:
五、線性回歸的評估名額
回歸模型的最終目标是通過函數表達式建立自變量x與結果y之間的關系,希望通過x能較為準确地表示結果y。在實際的應用場合中,很難甚至不可能把導緻y的所有變量(特征)都找出來,并放到回歸模型中。那麼模型中存在的x通常認為是影響結果的最主要的變量集合(又稱為因子,在ML中稱為特征集)。根據中心極限定理,把那些對結果影響較小的變量(假設獨立同分布)之和認為服從正态分布是合理的。
上述兩式等價,即:經過最大似然估計推導出來的待優化的目标函數與平方損失函數是等價的。
六、sklearn參數詳解
借鑒學習别人的,這個很詳細地介紹了參數:
https://blog.csdn.net/qq_41577045/article/details/79844931