python scikit-learn计算tf-idf词语权重

1 安装scikit-learn包

sudo pip install scikit-learn

2 中文分词采用的jieba分词，安装jieba分词包

sudo pip install jieba

)

import jieba.posseg as pseg

words=pseg.cut("对这句话进行分词")

for key in words:

print key.word,key.flag

输出结果：

对 p

这 r

句 q

话 n

进行 v

分词 n

一个简单的代码如下:

# coding:utf-8

__author__ = "liuxuejiang"

import jieba

import os

import sys

from sklearn import feature_extraction

from sklearn.feature_extraction.text import tfidftransformer

from sklearn.feature_extraction.text import countvectorizer

if __name__ == "__main__":

corpus=["我来到北京清华大学",#第一类文本切词后的结果，词之间以空格隔开

"他来到了网易杭研大厦",#第二类文本的切词结果

"小明硕士毕业与中国科学院",#第三类文本的切词结果

"我爱北京天安门"]#第四类文本的切词结果

vectorizer=countvectorizer()#该类会将文本中的词语转换为词频矩阵，矩阵元素a[i][j] 表示j词在i类文本下的词频

transformer=tfidftransformer()#该类会统计每个词语的tf-idf权值

tfidf=transformer.fit_transform(vectorizer.fit_transform(corpus))#第一个fit_transform是计算tf-idf，第二个fit_transform是将文本转为词频矩阵

word=vectorizer.get_feature_names()#获取词袋模型中的所有词语

weight=tfidf.toarray()#将tf-idf矩阵抽取出来，元素a[i][j]表示j词在i类文本中的tf-idf权重

for i in range(len(weight)):#打印每类文本的tf-idf词语权重，第一个for遍历所有文本，第二个for便利某一类文本下的词语权重

print u"-------这里输出第",i,u"类文本的词语tf-idf权重------"

for j in range(len(word)):

print word[j],weight[i][j]

程序输出：每行格式为：词语 tf-idf权重

-------这里输出第 0 类文本的词语tf-idf权重------ #该类对应的原文本是："我来到北京清华大学"

中国 0.0

北京 0.52640543361

大厦 0.0

天安门 0.0

小明 0.0

来到 0.52640543361

杭研 0.0

毕业 0.0

清华大学 0.66767854461

硕士 0.0

科学院 0.0

网易 0.0

-------这里输出第 1 类文本的词语tf-idf权重------ #该类对应的原文本是： "他来到了网易杭研大厦"

北京 0.0

大厦 0.525472749264

来到 0.414288751166

杭研 0.525472749264

清华大学 0.0

网易 0.525472749264

-------这里输出第 2 类文本的词语tf-idf权重------ #该类对应的原文本是： "小明硕士毕业于中国科学院“

中国 0.4472135955

小明 0.4472135955

来到 0.0

毕业 0.4472135955

硕士 0.4472135955

科学院 0.4472135955

-------这里输出第 3 类文本的词语tf-idf权重------ #该类对应的原文本是： "我爱北京天安门"

北京 0.61913029649

天安门 0.78528827571

注：这里随便举了几个文本，所以tf-idf也没什么实际价值，旨在说明scikit-learn包关于tf-idf计算api的调用

python scikit-learn计算tf-idf词语权重

继续阅读

无法解析的外部符号 wmain，该符号在函数 "void cdecl mainCRTStartupHelper(struct HINSTANCE *,unsigned short con......

TestLink导出用例转换工具(XML2Excel)

解码器用于语义分割：数据依赖的解码可以实现灵活的特征聚合

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

Small tricks

libsvm for python 安装

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入