關于分詞有兩個令人頭痛的問題:一個是常用詞,一個是标點符号。
如果使用jieba分詞的,那麼這兩種‘符号’都會混雜在我們的結果中。
常用詞可以使用停用詞字典。而标點符号可以使用正則剔除,具體如下:
...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...
注:如果檔案很大時,建議按行讀取,逐行分詞。
關于分詞有兩個令人頭痛的問題:一個是常用詞,一個是标點符号。
如果使用jieba分詞的,那麼這兩種‘符号’都會混雜在我們的結果中。
常用詞可以使用停用詞字典。而标點符号可以使用正則剔除,具體如下:
...
text = re.sub('\W*', '', file.readlines())
word_list = jieba.cut(text)
...
注:如果檔案很大時,建議按行讀取,逐行分詞。