如何高效剔除jieba分词中的标点符号和其他特殊字符

2023-08-06 07:19:05

关于分词有两个令人头痛的问题：一个是常用词，一个是标点符号。

如果使用jieba分词的，那么这两种‘符号’都会混杂在我们的结果中。

常用词可以使用停用词字典。而标点符号可以使用正则剔除，具体如下：

...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...

注：如果文件很大时，建议按行读取，逐行分词。

上一篇: 跟任何人都聊得来—最受世界500强企业欢迎的沟通课（三）大结局跟任何人都聊得来—最受世界500强企业欢迎的沟通课读《跟任何人都聊得来》总结共勉：生活是不能打倒你的，只是你的意志消沉了，如果你在还有很多牵挂，那就站起来，跑过去，前面有很多美好的东西，是你可以真正拥有的。

下一篇: pandas中如何巧妙的查看groupby()的结果

继续阅读