条件概率:
条件概率(英语:conditional probability)就是事件A在事件B发生的条件下发生的概率。
条件概率表示为 P ( A ∣ B ) P(A|B) P(A∣B),读作“A在B发生的条件下发生的概率”。
文氏图:

根据条件概率推导贝叶斯定理:
由 P ( A ∣ B ) = P ( A ∩ B ) P ( B ) , 由\,\,P(A|B)=\frac{P(A\cap{B})}{P(B)}\,, 由P(A∣B)=P(B)P(A∩B),
得 P ( A ∩ B ) = P ( A ∣ B ) P ( B ) , 得\,\,P(A\cap{B})=P(A|B){P(B)}\,, 得P(A∩B)=P(A∣B)P(B),
同 理 P ( A ∩ B ) = P ( B ∣ A ) P ( A ) , 同理\,\,P(A\cap{B})=P(B|A){P(A)}\,, 同理P(A∩B)=P(B∣A)P(A),
故 P ( A ∣ B ) P ( B ) = P ( B ∣ A ) P ( A ) , 故\,\,P(A|B){P(B)}=P(B|A){P(A)}\,, 故P(A∣B)P(B)=P(B∣A)P(A),
因 此 P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) 因此\,\,P(A|B)=\frac{P(B|A){P(A)}}{P(B)} 因此P(A∣B)=P(B)P(B∣A)P(A)
假设现在有一个数据集,它由两类数据组成,数据分布如下图所示:
现在用 p 1 ( x , y ) p1(x,y) p1(x,y) 表示数据点 ( x , y ) (x,y) (x,y) 属于类别1(图中红色圆点表示的类别)的概率,用 p 2 ( x , y ) p2(x,y) p2(x,y) 表示数据点 ( x , y ) (x,y) (x,y) 属于类别2(图中蓝色三角形表示的类别)的概率,那么对于一个新数据点 ( x , y ) (x,y) (x,y),可以用下面的规则来判断它的类别:
- 如果 p 1 ( x , y ) > p 2 ( x , y ) p1(x,y)>p2(x,y) p1(x,y)>p2(x,y),那么类别为1
- 如果 p 1 ( x , y ) < p 2 ( x , y ) p1(x,y)<p2(x,y) p1(x,y)<p2(x,y),那么类别为2
应用贝叶斯准则,得
p ( c i ∣ x , y ) = p ( x , y ∣ c i ) p ( c i ) P ( x , y ) p(c_i|x,y)=\frac{p(x,y|c_i)p(c_i)}{P(x,y)} p(ci∣x,y)=P(x,y)p(x,y∣ci)p(ci)
参数具体意义:
给定某个由x、y表示的数据点,该数据点来自类别 c i c_i ci 的概率是多少?数据点来自类别 c 2 c_2 c2 的概率又是多少?注意这些概率与刚才给出的概率 p ( x , y ∣ c 1 ) p(x,y|c_1) p(x,y∣c1)并不一样,不过可以使用贝叶斯准则来交换概率中条件与结果。
使用上述定义,可以定义贝叶斯分类准则为:
- 如果 P ( c 1 ∣ x , y ) > P ( c 2 ∣ x , y ) P(c_1|x, y) > P(c_2|x,y) P(c1∣x,y)>P(c2∣x,y),则属于类别 c 1 c_1 c1。
- 如果 P ( c 1 ∣ x , y ) < P ( c 2 ∣ x , y ) P(c_1|x, y) < P(c_2|x, y) P(c1∣x,y)<P(c2∣x,y),则属于类别 c 2 c_2 c2。
使用贝叶斯准则,可以通过已知的三个概率值来计算未知的概率值。
参考资料:《机器学习实战》