天天看點

線性回歸算法梳理機器學習的一些概念線性回歸

機器學習的一些概念

有監督、無監督

根據訓練資料是否擁有标記資訊,學習任務可大緻劃分為兩大類:“監督學習”(supervised learning)和“無監督學習”(unsupervised learning)。監督學習是用已有的标注資訊和期望訓練出一個unction。K-近鄰算法、決策樹、樸素貝葉斯、分類和回歸是前者的代表,而聚類、主成分分析(PCA)則是後者的代表。

泛化能力

學得模型适用于新樣本的能力,稱為“泛化”(generalization)能力,即能不能舉一反三。就像老師讓學生做的都是模拟卷,而不能跟最終的考試卷雷同,學生通過做模拟卷訓練自己,而最終在考試卷中取得不錯的成績,便是相當于泛化能力的展現。

過拟合欠拟合

當學習器把訓練樣本學得“太好”了的時候,學習能力太過強大,很可能已經把訓練樣本自身的一些特點當作了所有潛在樣本都會具有的一般性質,這樣就會導緻泛化性能下降,這種現象在機器學習中稱為“過拟合”(overfitting)。與“過拟合”相對的是“欠拟合”(underfitting),這是指對訓練樣本的一般性質尚未學好。

P-R曲線

以查準率為縱軸、查全率為橫軸作圖,就得到了查準率-查全率曲線,簡稱“P-R曲線”。

交叉驗證法

最常間的是K-折交叉驗證(K-fold Cross Validation),記為K-CV。它是将資料集劃分為k個大小相同的子集,然後用k-1個作為訓練集,1個作為驗證集,得到一個結果。然後保證每個子集都被作為一次驗證集,即共k個結果,然後取均值。即為最後的結果。

線性回歸

線性回歸在假設特證滿足線性關系,根據給定的訓練資料訓練一個模型,并用此模型進行預測。

損失函數、代價函數、目标函數

線性回歸的模型為:

線性回歸算法梳理機器學習的一些概念線性回歸

為了确定每一個權重w和b,使用均方誤差作為性能度量,即試圖讓均方誤差最小化。

線性回歸算法梳理機器學習的一些概念線性回歸

優化方法-梯度下降法

要确定權重參數,就要在代價函數取最小值時才能确定。梯度下降法是先随機對權重賦予一個初值,然後沿着梯度下降的方向進行疊代權重值,最終得到一組逼近值。但此方法受下降的步長影響大,若步長取得小,則可能取得局部最小值,取得大,又可能學不到特性。

評估名額

  • 均方誤差(MSE - Mean Squared Error)
    線性回歸算法梳理機器學習的一些概念線性回歸
  • 均方根誤差(RMSE - Root Mean Squard Error)
    線性回歸算法梳理機器學習的一些概念線性回歸
  • 平均絕對誤差(MAE)
    線性回歸算法梳理機器學習的一些概念線性回歸

繼續閱讀