python结巴分词及词频统计

2022-09-05 15:54:04

1 def get_words(txt):
 2     seg_list = jieba.cut(txt)
 3     c = Counter()
 4     for x in seg_list:
 5         if len(x) > 1 and x != '\r\n':
 6             c[x] += 1
 7     print('常用词频度统计结果')
 8     for (k, v) in c.most_common(30):
 9         print('%s%s %s %d' % (' ' * (5 - len(k)), k, '*' * int(v / 3), v))
10         
11 if __name__ == '__main__':
12     with codecs.open('comments.txt', 'r', 'gbk') as f:
13         txt = f.read()
14     get_words(txt)
15     # get_text()

def get_words(txt):
    seg_list = jieba.cut(txt)
    c = Counter()
for x in seg_list:
if len(x) > 1 and x != '\r\n':
1
print('常用词频度统计结果')
for (k, v) in c.most_common(30):
print('%s%s %s %d' % (' ' * (5 - len(k)), k, '*' * int(v / 3), v))

if __name__ == '__main__':
with codecs.open('comments.txt', 'r', 'gbk') as f:
        txt = f.read()
    get_words(txt)
    # get_text()

作者：靠谱杨，

更多日常分享尽在我的VX公众号：小杨的挨踢IT生活

python结巴分词及词频统计

继续阅读

HTML addEventListener() 方法和attachEvent()区别分析

web前端布局练手项目

Django之验证码（十七）验证码

Vue项目 - 单文件组件和Vue中的路由

龙珠训练营task04

赶工心得（一）

一个小小的移动web版音乐播放器

Docker - Dockerfile之ADD、COPY、WORKDIR、USER、EXPOSE指令详解

Compile workrave under windows &ndash; My exprience 在Windows上编译Workrave

门户通专访草根站长九天狼：做站贵在坚持

tabpanel 使用问题

为什么把CSS放头部，script放下面

CSS之折叠菜单

web开发之前后端渲染

403 Forbidden，You don't have permission to access / on this server.Forbidden

STM32F4内部Flash读写