(1)涉及到的算法
1.監督學習:線性回歸,邏輯回歸,神經網絡,SVM。
線性回歸(下面第三行x0(i)其實是1,可以去掉)

邏輯回歸
神經網絡(寫出前向傳播即可,反向架構會自動計算)
SVM
2.非監督學習:聚類算法(K-mean),降維(PCA)
K-mean
PCA
3.異常檢測
4.推薦系統
(2)政策
1.偏差與方差,正則化
訓練誤差減去人類最高水準為偏差(欠拟合),交叉驗證集誤差減訓練誤差為方差(過拟合);
正則化解決方差問題,不對θ0正則化;
2.學習曲線
全過程觀測偏差與方差,是以更全面。
3.誤差分析
找到哪種原因造成誤差最大,最該花時間的地方。
4.評價方法
盡量使用單一名額評價,準确率不适合類偏斜,用精确度和召回率判定
精确度是預測的視角(預測為正樣本中有多少是正樣本),召回率是樣本視角(正樣本有多少被預測到了)
F1=2(PR)/(P+R)
5.資料集的拆分
訓練集用于訓練模型,,交叉驗證集用于篩選模型/調參,測試集用來做最終評價。
6.上限分析
每一步假設輸出完全正确時,能提高多少的正确率,提高最高的地方就是最該馬上花時間解決的地方。
(3)應用
1.OCR
檢測,分割,識别,現在常常不分割了,直接序列化識别。
2.大規模的機器學習
小批量的訓練方法以及使用并行計算。