天天看点

朴素贝叶斯文本分类应用

在这里介绍两种分类应用。分别Multivariate Bernouli Even Model多元伯努利事件模型 和 Mutinomial Event Model多项式事件模型

由简单到复杂原则,先搞 多元伯努利!

多元伯努利的思想是,按照训练数据,我们建立一个vocabulary,这个vocabulary 相当于一个向量,我们遍历一个邮件的文字的时候,出现的word,都会在相应的vocabulary位置上记录为1。

朴素贝叶斯文本分类应用

学习模型分为以下几步

1.假设模型

2.设定参数,表示概率

3.求最大似然,求出参数

4.用所得的参数,再去验证测试数据

在多元伯努利模型中,我们假设的是在给定的一个判别里(比如这个是垃圾邮件)里,词语词之间是独立分布的.说明如下

朴素贝叶斯文本分类应用

要注意的是并不是x之间是独立分布的,而是在给定y的判别条件下,x之间是独立分布的。这正是取名叫朴素贝叶斯的原因

这样我们就进行第二部,表示概率

朴素贝叶斯文本分类应用

表示似然

朴素贝叶斯文本分类应用

最终我们求得的参数是这样的值,具体的证明过程就不写了,机器学习就是 知其然,知其所以然,就可以了,至于怎么特么计算然,在必要的时候计算就可以啦

朴素贝叶斯文本分类应用

具体的参数意义再做一个标注:

朴素贝叶斯文本分类应用

我们现在得到了参数,接下来就是对测试数据进行概率计算,来判断那种情况更有可能

朴素贝叶斯文本分类应用

以上就是多元伯努利模型,我们接下来介绍第二种方法,因为传说第第二种方法准确率更高,具体会在后续的博客中去验证一下这个观点。

现在隆重介绍我们的,Mutinomial Event Model多项式事件模型

多项事件模型,顾名思义就是模型假设是一个多项式分布。

具体的意思就是

朴素贝叶斯文本分类应用

我们来考虑一下这种模型的假设,在这种假设里,在给定一个判别中,email里买个位置词分布都是相同的分布,看看是不是这样呢? 这点与我们贝叶斯文本分类伯努利模式就不同,在伯努利分布里并没有这样的假设,而是服从与实际情况,email里出现这个词我就记录,没出现我就不记录吗。所以多项式事件模型他是一种强假设,尽管与实际情况不符合,但是他的分类效果依然很好,这个是听说,我的后期博客里会去验证这点。

现在我们开始模型建立4步骤,把上面的复制过来

1.假设模型

2.设定参数,表示概率

3.求最大似然,求出参数

4.用所得的参数,再去验证测试数据

模型假设我们已经完成,参数表示是这样

朴素贝叶斯文本分类应用

表示概率

朴素贝叶斯文本分类应用

求似然函数

朴素贝叶斯文本分类应用

然后再把参数代入到概率函数中去检测测试集数据就可以了

以上就是关于朴素贝叶斯文本分类的概念的介绍。

继续阅读