【多變量線性回歸】學習記錄序思路實作終

2023-08-07 22:52:53

序

由于最近時間比較緊，要學的東西也比較多，是以這篇文章會寫得比較粗略，主要目的也是儲存自己的代碼，以及友善自己日後回憶。

思路

J 函數

首先我們将要定義一個 J J J 函數，意在表達目前函數與訓練資料間的差異值， J J J 函數的值越大，表示在參數為 θ \theta θ 時目前函數 h θ ( x ) h_{\theta}(x) hθ(x) 與訓練資料 y y y 的拟合程度越差。下面給出 J J J 函數的定義式：

J θ = 1 2 m ∗ ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) J_{\theta} = \frac {1} {2m} * \sum_{i=1}^{m} {(h_{\theta}(x^{(i)})-y^{(i)})} Jθ=2m1∗i=1∑m(hθ(x(i))−y(i))

J J J 函數有一些喜人的性質，比如局部最優解等于全局最優解，正是這個性質使得我們可以放心地使用梯度下降算法來訓練算法。

下面是 J J J 函數關于 θ \theta θ 值的 surf 圖和 contour 圖，圖三中的 mark 表示經過數次學習後使 J J J 函數達到收斂的參數的所在位置。

【多變量線性回歸】學習記錄序思路實作終

梯度下降

可以被想象為一個小球處于某個初始狀态，不斷向山谷即極小值點滾動的過程。這裡的山谷指的是 J J J 函數的值關于 θ \theta θ 的變化。

θ j = θ j − α 1 m ∑ i = 1 m ( h θ ( x ( i ) ) − y ( i ) ) x j ( i ) \theta_{j} = \theta_{j} - \alpha \frac {1} {m} \sum_{i=1}^m {(h_{\theta}(x^{(i)})-y^{(i)})} x^{(i)}_j θj=θj−αm1i=1∑m(hθ(x(i))−y(i))xj(i)

向量化

内置的向量庫要比手寫循環快很多，是以代碼實作的時候盡可能用向量表示。

實作

主腳本（my_mul.m）

clear;
close all;
clc;

% ====================================================

fprintf('load the ex1data2.txt...\n');
data = load('ex1data2.txt');
X = data(:, 1:2);
y = data(:, 3);

m = length(y); % number of sample case
fprintf('load successful!\n\n\n');


fprintf('init the data...\n');
[X, mu, stdd] = init_data(X);
X = [ones(m,1), X];
fprintf('init successful!\n\n\n');

% ====================================================

theta = [0; 0; 0];
alpha = 0.2;
iteration = 50;
fprintf('init the parameter, successful!\n');

[theta, J_his] = gra_des(X, y, theta, alpha, iteration);
cur_J = J_his(size(J_his), 1);
fprintf('cur_J = %f\n',cur_J);

plot((1:50), J_his(:, 1));

query = [1650, 3];
query = [ones(1,1), (query - mu) ./ stdd * 3];
tmp = query * theta;

fprintf('Predicted price of a 1650 sq-ft, 3 br house is %f\n',tmp);

資料初始化（init_data.m）

為了避免各個次元的資料之間相差過大，梯度下降時不收斂，把所有資料通過加減和縮放變為均值為 0，标準差為 1 的資料。并把縮放記錄儲存下來，在預測其他資料時需要使用。

function [res, mu, stdd] = init_data(X) 
	mu = mean(X); minn = min(X); maxx = max(X);
	stdd = maxx - minn;
	for i = 1:size(X, 2)
		X(:, i) = X(:, i) - mu(1, i);
		if maxx(1, i) ~= minn(1, i)
			X(:, i) = X(:, i) / stdd(1, i) * 3;
		end;
	end;
	res = X;

計算 J函數（calc_J.m）

這個很簡單，不多bb。

function J = calc_J(X, y, theta)
	m = length(y);
	J = 0;
	J = 1/(2*m) * sum(((X*theta)-y).^2);

梯度下降（gra_des.m）

把 J J J 函數的變化曲線也儲存下來，這樣調 α \alpha α (學習速率) 的時候很友善。

function [theta, J_his] = gra_des(X, y, theta, alpha, iteration) 
	m = length(y);
	J_his = zeros(m, 1);

	for iter = 1:iteration
		theta = theta - (alpha/m) * (X'*(X*theta-y));
		J_his(iter, 1) = calc_J(X, y, theta);
	end;

終

現在一看簡單得一匹，我為什麼當時實作了那麼久？

【多變量線性回歸】學習記錄序思路實作終

序

思路

J 函數

梯度下降

向量化

實作

主腳本（my_mul.m）

資料初始化（init_data.m）

計算 J函數（calc_J.m）

梯度下降（gra_des.m）

終

繼續閱讀

線性回歸算法梳理（打卡task-1）

簡單文檔分類——樸素貝葉斯算法樸素貝葉斯算法簡單文檔分類執行個體步驟總結樸素貝葉斯分類調用(sklearn)

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

分類算法的評價名額

K-近鄰算法以及圖像分類應用

weka之NB算法

使用weka的select attribute

weka中分類器算法

在weka中內建自己的算法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

【多變量線性回歸】學習記錄序思路實作終

序

思路

J 函數

梯度下降

向量化

實作

主腳本（my_mul.m）

資料初始化（init_data.m）

計算 J函數 （calc_J.m）

梯度下降 （gra_des.m）

終

繼續閱讀

計算 J函數（calc_J.m）

梯度下降（gra_des.m）