【自然语言处理概述】文本词频分析

作者简介：在校大学生一枚，华为云享专家，阿里云专家博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与产业实践资源建设专家委员会（TIPCC）志愿者，以及编程爱好者，期待和大家一起学习，一起进步~

.

博客主页：ぃ灵彧が的学习日志

.

本文专栏：人工智能

.

专栏寄语：若你决定灿烂，山无遮，海无拦

.

【自然语言处理概述】文本词频分析【自然语言处理概述】文本词频分析一、前沿二、代码部分三、总结

(文章目录)

一、前沿

(一)、任务描述

文本与图片具有本质上的差别：图片本质上是数字化的，其每个像素点都由三原色的组合灰度值构成，而文本属于自然语言，其表现形式无法被计算机直接识别，因此，在自然语言处理技术发展的早期，解决文本表示问题是一项极具挑战的任务。

(二)、环境配置

本次实验平台为百度AI Studio，Python版本为Python3.7，下面介绍如何通过Python编程方式实现文本词频分析。

二、代码部分

(一)、文本加载

首先将需要分析的文本从文件中读出，本文以一篇散文为例进行后面的分析：

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()

(二)、文本分词

目前，Python支持多种第三方分词工具，最常用的有jieba分词、SnowNLP、THULAC、NLPIR等，本书以jieba分词为例进行演示，更多分词工具读者可以自行实验尝试。

import jieba # jieba中文分词库
novelList = list(jieba.lcut(novel))

(三)、去停用词

在自然语言中，存在很多无意义的词，比如标点符号“、”“的”“之”等，这类词出现频率高，且具有很有限的语义作用，称作停用词。为了避免这类词对统计结果造成的干扰，通常在分词之后，需要将其剔除，只保留重要的词语用作进一步分析，下面一段代码演示了计算每个词出现的频次的过程，若该词在停用词列表中，直接不计入：

stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

(四)、根据词频排序并输出

import jieba # jieba中文分词库

with open('test.txt', 'r', encoding='UTF-8') as novelFile:
    novel = novelFile.read()
# print(novel)
stopwords = [line.strip() for line in open('stop.txt', 'r', encoding='UTF-8').readlines()]
novelList = list(jieba.lcut(novel))
novelDict = {}

# 统计出词频字典
for word in novelList:
    if word not in stopwords:
            # 不统计字数为一的词
            if len(word) == 1:
                continue
            else:
                novelDict[word] = novelDict.get(word, 0) + 1

# 对词频进行排序
novelListSorted = list(novelDict.items())
novelListSorted.sort(key=lambda e: e[1], reverse=True)

# 打印前10词频
topWordNum = 0
for topWordTup in novelListSorted[:10]:
    print(topWordTup)

from matplotlib import pyplot as plt
x = [c for c,v in novelListSorted]
y = [v for c,v in novelListSorted]
plt.plot(x[:10],y[:10],color='r')
plt.show()

(五)、小结

词频统计在一定程度上可以反映文本的特征。文本词频分析仅仅可以作为文本的一部分最浅层的特征使用，但是要分析其深度语义，需要使用更加先进的文本特征提取方式。

三、总结

本系列文章内容为根据清华社出版的《自然语言处理实践》所作的相关笔记和感悟，其中代码均为基于百度飞桨开发，若有任何侵权和不妥之处，请私信于我，定积极配合处理，看到必回！！！

【自然语言处理概述】文本词频分析【自然语言处理概述】文本词频分析一、前沿二、代码部分三、总结

【自然语言处理概述】文本词频分析

一、前沿

(一)、任务描述

(二)、环境配置

二、代码部分

(一)、文本加载

(二)、文本分词

(三)、去停用词

(四)、根据词频排序并输出

(五)、小结

三、总结

继续阅读

YAML简介和PyYAML安全操作YAML支持的类型YAML的优点：yaml的基本语法python操作

2021-2025年中国运动疗法（KT）带行业市场供需与战略研究报告

Small tricks

libsvm for python 安装

2021年危险化学品经营单位安全管理人员考试题库及危险化学品经营单位安全管理人员考试技巧

学习软件测试基础测试第七天

Zeppelin 配置访问 REST APIApache Zeppelin Configuration REST API

【Torch】最简洁logging使用指南

27. Remove Element(列表)题目代码

无人机--飞控科普

Cloud Studio初体验

使用 ctypes 进行 Python 和 C 的混合编程

【python】【数据处理】画多维数据分布图

【python】netconf协议对接管理设备

「Python 网络自动化」NETCONF —— Python 使用 NETCONF 管理配置 H3C 网络设备

在python中创建excel并写入