機器學習過程:Dataset→Model Select→Training→推理
過拟合:訓練集上有很好的結果,但是訓練集外卻不能很好的拟合資料。主要原因是訓練集存在噪聲或訓練資料太少。
泛化:訓練出的模型在訓練集外同樣适用。
資料集:訓練集(通常還會分成訓練集和開發集,用作模型評估)和測試集。
線性模型:y_hat = f(x) = wx + b,訓練的目的就是得到w和b。
損失loss:預測值與真實值之間的內插補點。
平均平方誤差(Mean Square Error)MSE:cost
示例:
x是學習時間,y是相應學習時間能獲得的分數。w從0.0~4.0以0.1為間隔取值,并計算預測損失,取loss最小時的w作為模型權重。
代碼:
import numpy as np
import matplotlib.pyplot as plt
x_data = [1.0, 2.0, 3.0]
y_data = [2.0, 4.0, 6.0]
def forward(x):
'線性模型:y_pred = w * x'
return x * w
def loss(x,y):
'損失:loss=(y_pred-y)**2'
y_pred = forward(x)
return (y_pred - y) ** 2
w_list = []
mse_list = []
for w in np.arange(0.0, 4.1, 0.1):
print('w=', w)
l_sum = 0
for x_val, y_val in zip(x_data, y_data):
y_pred_val = forward(x_val)
loss_val = loss(x_val, y_val)
l_sum += loss_val
print('/t', x_val, y_val, y_pred_val, loss_val)
print('MSE=', l_sum / 3)
w_list.append(w)
mse_list.append(l_sum / 3)
plt.plot(w_list, mse_list)
plt.xlabel('Loss')
plt.ylabel('w')
plt.show()
輸出: