天天看点

[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

回归和分类的线性模型总结

        • 前言
        • 正文
          • 1. 极大似然 Miximum Likelihood
          • 2. 凸函数与非凸函数 Convex and Non-Convex
          • 3. 梯度下降 Gradient Decent
          • 4. 线性函数和偏置 Linear Model with Bias
          • 5. 最小绝对偏差 Least Absolute Deviation(LAD)
          • 6. 最小二值和封闭解 Least Square and Closed-form Solution
          • 7. Sigmoid
          • 8. 独热 One Hot
          • 9. Softmax
          • 10. 分类分布 Categorical Distribution

前言

由于我时间实在不充裕,没能提供中文翻译,给观众老爷造成的不便本人深感抱歉,那就给观众老爷表演个大石碎胸口!

[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification

正文

思维导图原址请点这里

[NN]回归和分类的线性模型总结 Linear Model for Regression and Classification
1. 极大似然 Miximum Likelihood

f ∗ ( x ) = a r g m a x ∏ i = 1 n p ^ ( y i ∣ f ( x i ) ) = − a r g m i n ∑ i = 1 n l o g [ p ^ ( y i ∣ f ( x i ) ] f^{*}(x)=arg max \prod_{i=1}^{n}\hat{p}(y_{i}|f(x_{i}))=-argmin\sum_{i=1}^{n}log[\hat{p}(y_{i}|f(x_{i})] f∗(x)=argmaxi=1∏n​p^​(yi​∣f(xi​))=−argmini=1∑n​log[p^​(yi​∣f(xi​)]

2. 凸函数与非凸函数 Convex and Non-Convex

请注意中国大陆数学界某些机构关于函数凹凸性定义和国外的定义是相反的。Convex Function在某些中国大陆的数学书中指凹函数。Concave Function指凸函数。

3. 梯度下降 Gradient Decent

θ t + 1 = θ t − η ∇ J ( θ t ) \theta_{t+1}=\theta_{t}-\eta∇J(\theta_{t}) θt+1​=θt​−η∇J(θt​)

其中, η \eta η 表示步长(Step Size)或者学习速率(Learning Rate)

4. 线性函数和偏置 Linear Model with Bias

f ( x ) = W T x + b f(x)=W^{T}x+b f(x)=WTx+b

5. 最小绝对偏差 Least Absolute Deviation(LAD)

W ∗ = a r g m i n 1 n ∑ i = 1 n ∣ y i − f ( x i ) ∣ W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}|y_{i}-f(x_{i})| W∗=argminn1​i=1∑n​∣yi​−f(xi​)∣

6. 最小二值和封闭解 Least Square and Closed-form Solution
  • W ∗ = a r g m i n 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 W^{*}=argmin\frac{1}{n}\sum_{i=1}^{n}(y_{i}-f(x_{i}))^{2} W∗=argminn1​i=1∑n​(yi​−f(xi​))2
  • W ∗ = ( X T X ) − 1 X T y W^{*}=(X^{T}X)^{-1}X^{T}y W∗=(XTX)−1XTy
7. Sigmoid

σ = e x p ( s ) e x p ( s ) + 1 \sigma=\frac{exp(s)}{exp(s)+1} σ=exp(s)+1exp(s)​

8. 独热 One Hot

假设一个三分类任务:猫,狗,其他,其对应类编号为 0, 1, 2.那么对应的独热编码为:[1, 0, 0],[0, 1, 0],[0, 0, 1]

9. Softmax

S o f t m a x ( s i ) = e x p ( s i ) ∑ j e x p ( s j ) Softmax(s_{i})=\frac{exp(s_{i})}{\sum_{j} exp(s_{j})} Softmax(si​)=∑j​exp(sj​)exp(si​)​

10. 分类分布 Categorical Distribution

p ( y ∣ f ( x ) ) = ∏ c = 1 c f c ( x ) y c p(y|f(x))=\prod_{c=1}^{c}f_{c}(x)^{y_{c}} p(y∣f(x))=c=1∏c​fc​(x)yc​

各位观众老爷,给个赞再走吧~~

继续阅读