如何高效剔除jieba分詞中的标點符号和其他特殊字元

2023-08-06 07:19:05

關于分詞有兩個令人頭痛的問題：一個是常用詞，一個是标點符号。

如果使用jieba分詞的，那麼這兩種‘符号’都會混雜在我們的結果中。

常用詞可以使用停用詞字典。而标點符号可以使用正則剔除，具體如下：

...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...

注：如果檔案很大時，建議按行讀取，逐行分詞。

上一篇: 跟任何人都聊得來—最受世界500強企業歡迎的溝通課（三）大結局跟任何人都聊得來—最受世界500強企業歡迎的溝通課讀《跟任何人都聊得來》總結共勉：生活是不能打倒你的，隻是你的意志消沉了，如果你在還有很多牽挂，那就站起來，跑過去，前面有很多美好的東西，是你可以真正擁有的。

下一篇: pandas中如何巧妙的檢視groupby()的結果

繼續閱讀