github位址:https://github.com/isnowfy/snownlp
情感分析(現在訓練資料主要是買賣東西時的評價,是以對其他的一些可能效果不是很好,待解決)
文本分類(naive bayes)
轉換成拼音(trie樹實作的最大比對)
繁體轉簡體(trie樹實作的最大比對)
tf,idf
tokenization(分割成句子)
現在提供訓練的包括分詞,詞性标注,情感分析,而且都提供了我用來訓練的原始檔案 以分詞為例 分詞在<code>snownlp/seg</code>目錄下
這樣訓練好的檔案就存儲為<code>seg.marshal</code>了,之後修改<code>snownlp/seg/__init__.py</code>裡的<code>data_path</code>指向剛訓練好的檔案即可