使用誤差平方和來作為目标函數,因為假定随機誤差服從高斯分布

訓練集的似然函數為
兩邊取對數後得到對數似然函數
想讓對數似然函數最大,就是讓紅框内的值最小,紅框内是最小二乘是以将最小二乘視為目标函數。
在參數更新中,根據這個目标函數的梯度來進行梯度下降計算。
通過在目标函數後加正則項來避免過拟合,
SGD和BGD的差別是SGD每次随機使用一個訓練樣本進行參數的疊代,BGD每次使用所有的訓練樣本進行疊代,當訓練集很大時,BGD訓練一次的速度很慢。
邏輯回歸是二分類算法,将線性回歸的值帶入sigmoid函數,跟門檻值比較來進行分類,邏輯回歸的梯度:
在形式上與線性回歸的形式是一樣的。
ps:特征選擇後如果得到共線性特征時可以增加樣本資料量或者剔除一些不重要的項。