天天看點

如何高效剔除jieba分詞中的标點符号和其他特殊字元

關于分詞有兩個令人頭痛的問題:一個是常用詞,一個是标點符号。

如果使用jieba分詞的,那麼這兩種‘符号’都會混雜在我們的結果中。

常用詞可以使用停用詞字典。而标點符号可以使用正則剔除,具體如下:

...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...
           

注:如果檔案很大時,建議按行讀取,逐行分詞。