:NLTK,FoolNLTK,HanLP(java版本),pyhanlp(python版本),Ansj,THULAC,結巴分詞,FNLP,哈工大LTP,中科院ICTCLAS分詞,GATE,SnowNLP,東北大學NiuTrans,NLPIR,;
英文主要有:NLTK,Genism,TextBlob,Stanford NLP,Spacy。英文的開源NLP工具主要參見StackoverFlow-java or python for nlp
相關問題&文章:(1)如何用 Python 中的 NLTK 對中文進行分析和處理? 這個問題下的回答也詳說了其他的語音處理包
(2)中文分詞項目總結
詳細介紹 HanLP:HanLP是由一系列模型與算法組成的Java工具包,目标是普及自然語言處理在生産環境中的應用。HanLP具備功能完善、性能高效、架構清晰、語料時新、可自定義的特點。
開發語言:Java
網址:hankcs/HanLP
開發機構:大快搜尋
協定:Apache-2.0
功能:非常多,主要有中文分詞,詞性标注,命名實體識别,關鍵詞提取,自動摘要,短語提取,拼音轉換,簡繁轉換,文本推薦,依存句法分析,文本分類:情感分析,word2vec,語料庫工具
活躍度:github star 超過4千5,近期(201711)仍在保持更新
Ansj中文分詞:一個基于n-Gram+CRF+HMM的中文分詞的java實作.
網址:NLPchina/ansj_seg
協定:Apache License 2.0
功能:中文分詞. 中文姓名識别 . 使用者自定義詞典,關鍵字提取,自動摘要,關鍵字标記
性能:分詞速度達到每秒鐘大約200萬字左右(mac air下測試),準确率能達到96%以上
活躍度:github star 數量超過3500,近期(2017.11)仍在保持更新
THULAC:一個高效的中文詞法分析工具包,具有中文分詞和詞性标注功能。
開發語言:
網址:THULAC:一個高效的中文詞法分析工具包
開發機構:清華大學自然語言處理與社會人文計算實驗室
協定:研究目的免費開放源代碼,商用目的需洽談許可證
功能:中文分詞和詞性标注
感謝石墨使用者@hain 的補充
Synonyms: 中文近義詞工具包
開發語言:Python
開發機構:個人
協定:MIT
功能:擷取近義詞集合,句子相似度計算
性能:見網站
活躍度:~1k Star
結巴分詞:Python中文分詞元件
網址:fxsjy/jieba
開發機構:
協定:MIT授權協定
功能:中文分詞
FNLP:FNLP主要是為中文自然語言處理而開發的工具包,也包含為實作這些任務的機器學習算法和資料集。
網址: FudanNLP/fnlp
開發機構:複旦
協定:LGPL3.0許可證。
功能:資訊檢索: 文本分類 新聞聚類;中文處理: 中文分詞 詞性标注 實體名識别 關鍵詞抽取 依存句法分析 時間短語識别;結構化學習: 線上學習 層次分類 聚類
Genism:Gensim is a Python library for topic modelling, document indexing and similarity retrieval with large corpora. Target audience is the natural language processing (NLP) and information retrieval (IR) community.
網址:RaRe-Technologies/gensim
協定:LGPL-2.1 license
活躍度:github star數超過五千,近期(201711)仍在更新
TextBlob:Simple, Pythonic, text processing--Sentiment analysis, part-of-speech tagging, noun phrase extraction, translation, and more.
網址:sloria/TextBlob
功能:情感分析、詞性标注、翻譯等
活躍度:github star 超過4千,近期(201711)仍在更新
Spacy:spaCy is a library for advanced Natural Language Processing in Python and Cython. It's built on the very latest research, and was designed from day one to be used in real products. spaCy comes with pre-trained statistical models and word vectors, and currently supports tokenization for 20+ languages. It features the fastest syntactic parser in the world, convolutional neural network models for tagging, parsing and named entity recognition and easy deep learning integration. It's commercial open-source software, released under the MIT license.
開發語言:python
協定:MIT協定
功能: 功能很多,如tagging, parsing and named entity recognition等
性能:功能強大,支援二十多種語言(然而目前還不支援中文,可以閱讀官方文檔了解更多資訊https://spacy.io/usage/),号稱是工業級強度的Python NLP工具包,差別于學術性質更濃的Python NLTK
活躍度:star 超過7千,近期(201711)仍非常活躍
作者:鑒津Jackie