nltk 自己训练模型例子

首先来看一下nltk官方文档中给出的一个简单明了的例子，在了解这个例子之后，再设法将同样的模型应用到自己的数据集上。官方给出的例子是英文名中，在知道名字中最后一个字母后，判断这个名字对应的人是男是女。

#coding=utf-8

import random, nltk

from nltk.corpus import names

def gender_features(word):

'''''提取每个单词的最后一个字母作为特征'''

return {'last_letter': word[-1]}

# 先为原始数据打好标签

labeled_names = ([(name, 'male') for name in names.words('male.txt')] + [(name, 'female') for name in names.words('female.txt')])

# 随机打乱打好标签的数据集的顺序，

random.shuffle(labeled_names)

# 从原始数据中提取特征（名字的最后一个字母，参见gender_features的实现）

featuresets = [(gender_features(name), gender) for (name, gender) in labeled_names]

# 将特征集划分成训练集和测试集

train_set, test_set = featuresets[500:], featuresets[:500]

# 使用训练集训练模型（核心就是求出各种后验概率）

classifier = nltk.naivebayesclassifier.train(train_set)

# 通过测试集来估计分类器的准确性

print(nltk.classify.accuracy(classifier, test_set))

# 如果一个人的名字的最后一个字母是‘a’，那么这个人是男还是女

print(classifier.classify({'last_letter': 'a'}))

# 找出最能够区分分类的特征值

classifier.show_most_informative_features(5)

以上程序的输出如下：

0.754

female

most informative features

last_letter = u'a' female : male = 35.6 : 1.0

last_letter = u'k' male : female = 30.7 : 1.0

last_letter = u'f' male : female = 16.6 : 1.0

last_letter = u'p' male : female = 12.5 : 1.0

last_letter = u'm' male : female = 11.1 : 1.0

从结果中，我们可以看到，通过训练集训练出的模型，在应用到测试集上时，其准确率为75%；如果一个人的名字以字母‘a’结束，那么此分类器将其划分为女性；最后输出了最能区分男女的5个属性值的数据，比如，对于字母‘a’来说，它作为女性名的最后一个字母的可能性是男性的35倍。

可以看到nltk的朴素贝叶斯实现之中，它的输入的训练集的输入是类似于以下的形式：

[

({'attr1':val1, 'attr2': val2, 'attr3': val3 ... 'attrn': valn}, label1),

({'attr1':val1, 'attr2': val2, 'attr3': val3 ... 'attrn': valn}, label2),

......

]

其中，每个特征对应一个标签，在以上的官方的例子中，特征就只有一个，last_letter；而特征的可能值是26个字母。对应到自己的数据，对应一个用户就不止有一个特征了，而是用户安装的app名称列表，同时又由于每个用户安装的app可能不同，所以不同的用户所对应的特征的长度也是可能不同的；而每个属性（app名称）对应的值只有两个：安装或者没安装。

#!/usr/local/bin/python2.7

# encoding: utf-8

from collections import defaultdict

import nltk

def gender_features(appnamelist):

features = defaultdict(bool)

for appname in appnamelist:

features[appname] = true

return features

if __name__ == '__main__':

raw_data = defaultdict(lambda: defaultdict(list))

with open('data/genderapplist.log') as f:

for line in f:

cells = line.strip().split('\t')

if len(cells) == 3:

imei, gender, appname = cells

gender = 'male' if gender == '男性应用' else 'female'

raw_data[gender][imei].append(appname)

labeled_applist = [(appnamelist, 'male') for appnamelist in raw_data['male'].values()] + [(appnamelist, 'female') for appnamelist in raw_data['female'].values()]

featuresets = [(gender_features(appnamelist), gender) for appnamelist, gender in labeled_applist]

train_set, test_set = featuresets[500:], featuresets[:500]

classifier = nltk.naivebayesclassifier.train(train_set)

# 在训练生成的分类器classifier中，有两个属性存储着贝叶斯分类器所需要的先验和后验概率：

# _label_probdist 保存了标签的分布

# _feature_probdist 保存了每个appname对应的后验分布

# 通过下面的代码我们可以看到它们的值

print '以下是 _label_probdist的相关信息'

print '1. 类型'

print type(classifier._label_probdist)

print '2. 标签的整体分布状况'

classifier._label_probdist.freqdist().tabulate()

print '3. 由第二步推出的标签的概率分布'

print classifier._label_probdist.prob('female'), classifier._label_probdist.prob('male')

print '*' * 32

# _feature_probdist的值

print '以下是 _feature_probdist的相关信息'

print '1. 类型'

print type(classifier._feature_probdist)

print '2. 从1的输出中可以看到其类型为dict，我们看它的一个key和value即可'

print classifier._feature_probdist.items()[6302]

print '3. 从2中可以看到，其代表了，在标签为female的情况下，安装了支付宝钱包这个应用的概率分布'

classifier._feature_probdist.items()[6302][1].freqdist().tabulate()

print '4. 3的输出，我们非常熟悉，也就是在所有4910个female用户中，有77个安装了支付宝钱包，没有安装的有4833个'

print '有了这个分布，我们就可以计算出p(true|female, 支付宝钱包)，其意义就是，在female用户中，支付宝钱包这个属性为true的可能性为'

print classifier._feature_probdist.items()[6302][1].prob(true)

print '5. 然后你会发现4中输出的p(true|female, 支付宝钱包)并不正好等于77./4910，这是因为使用eleprobdist'

print '也就是“期望相似性概率估计”，这种方法避免了p(true|female, 支付宝钱包)=0情况的出现，从而避免模型失效'

print '6. 通过在训练集上的训练，我们得到了以上的概率分布，然后就可以使用训练好的模型来分类了，我们看一下安装了蘑菇街和支付宝钱包的用户是男还是女'

print classifier.classify({'蘑菇街':true, '支付宝钱包': true})

print '7. 让我们看一下安传过了蘑菇街和支付宝钱包的用户男女的可能性'

print 'prob(female)', classifier.prob_classify({'蘑菇街':true, '支付宝钱包': true}).prob('female')

print 'prob(male)', classifier.prob_classify({'蘑菇街':true, '支付宝钱包': true}).prob('male')

print '8. 如果我们的输入中，有一个全新的应用“这个应用不存在”,这里的处理是不处理它'

print 'prob(female)', classifier.prob_classify({'蘑菇街':true, '支付宝钱包': true, '这个应用不存在':true}).prob('female')

print 'prob(male)', classifier.prob_classify({'蘑菇街':true, '支付宝钱包': true, '这个应用不存在':true}).prob('male')

以上程序的输出为：

以下是 _label_probdist的相关信息

1. 类型

2. 标签的整体分布状况

female male

4910 4420

3. 由第二步推出的标签的概率分布

0.526256564141 0.473743435859

********************************

以下是 _feature_probdist的相关信息

2. 从1的输出中可以看到其类型为dict，我们看它的一个key和value即可

(('female', '\xe6\x94\xaf\xe4\xbb\x98\xe5\xae\x9d\xe9\x92\xb1\xe5\x8c\x85'), <eleprobdist based on 4910 samples>)

3. 从2中可以看到，其代表了，在标签为female的情况下，安装了支付宝钱包这个应用的概率分布

none true

4833 77

4. 3的输出，我们非常熟悉，也就是在所有4910个female用户中，有77个安装了支付宝钱包，没有安装的有4833个

有了这个分布，我们就可以计算出p(true|female, 支付宝钱包)，其意义就是，在female用户中，支付宝钱包这个属性为true的可能性为

0.0157809000204

5. 然后你会发现4中输出的p(true|female, 支付宝钱包)并不正好等于77./4910，这是因为使用eleprobdist

也就是“期望相似性概率估计”，这种方法避免了p(true|female, 支付宝钱包)=0情况的出现，从而避免模型失效

6. 通过在训练集上的训练，我们得到了以上的概率分布，然后就可以使用训练好的模型来分类了，我们看一下安装了蘑菇街和支付宝钱包的用户是男还是女

7. 让我们看一下安传过了蘑菇街和支付宝钱包的用户男女的可能性

prob(female) 0.994878529146

prob(male) 0.00512147085357

8. 如果我们的输入中，有一个全新的应用“这个应用不存在”,这里的处理是不处理它

这样通过使用nltk，相比自己实现来说有了更简洁的代码，并且更容易维护，希望对有需要的同学有帮助。

nltk 自己训练模型例子

继续阅读

来自python的【条件控制/语句循环/break/continue/else/pass】一、条件控制二、语句循环

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入