天天看点

机器学习笔记(五)——朴素贝叶斯分类

一、分类问题

分类实际上是我们在日常生活中经常使用的。比如说,在工作中,把自己手头的任务分为轻重缓急,然后按照优先级去完成它们。

朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。

从数学的角度看 C={c1,c2,…,ck} 是类别的集合,集合 X={x1,x2,…,xk} 是输入集合 。这里,对于给定的输入 x 计算后验概率最大的c。

二、概率相关

P(X,Y)=P(X|Y)P(Y)=P(Y|X)P(X)

P(Y|X)=P(X|Y)P(Y)P(X)(1)

P(X,Y) 是 X和Y 的联合分布,训练数据集

T={(x1,y1),(x2,y2),…,(xn,yn)}

是由 P(X,Y) 独立同分布产生的。

三、朴素贝叶斯方法

对于给定的输入 x , 需要输出y,使得 P(Y=ck|X=x) 最大。由1式可知,分母是常数,我们使分子的最大化即可。

其中, P(Y=ck),k=1,2,…,K 称为先验概率分布。这项可以简单的求出。

P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck)

由于上式有指数型的参数,所以很难估计,为了便于计算,假设输入向量 x 的各个特征之间是条件独立的:

P(X=x|Y=ck)=P(X(1)=x(1),…,X(n)=x(n)|Y=ck)=∏j=1nP(X(j)=x(j)|Y=ck)

这也是朴素贝叶斯名字的来源。

则,最终结果

y=f(x)=argmaxckP(Y=ck)∏j=1nP(X(j)=x(j)|Y=ck)

四、总结

朴素贝叶斯实际上是学到生成数据的机制,即它是生成模型。条件独立的假设说明分类特征是条件独立的,这个假设使得计算大大简化,但是有时也牺牲了一定的准确性。

继续阅读