天天看點

推薦十款java開源中文分詞元件

推薦十款java開源中文分詞元件

1:Elasticsearch的開源中文分詞器 IK Analysis(Star:2471)

IK中文分詞器在Elasticsearch上的使用。原生IK中文分詞是從檔案系統中讀取詞典,es-ik本身可擴充成從不同的源讀取詞典。目前提供從sqlite3資料庫中讀取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中設定你的sqlite3詞典的位置: ik_analysis_db_path: /opt/ik/dictionary.db 我提供了預設的詞典:https:/...

2:開源的java中文分詞庫 IKAnalyzer(Star:343)

IK Analyzer 是一個開源的,基于java語言開發的輕量級的中文分詞工具包。從2006年12月推出1.0版開始, IKAnalyzer已經推出了4個大版本。最初,它是以開源項目Luence為應用主體的,結合詞典分詞和文法分析算法的中文分詞元件。從3.0版本開始,IK發展為面向Java的公用分詞元件,獨立于Lucene項目,同時提供了對Lucene的預設...

3:java開源中文分詞 Ansj(Star:3019)

Ansj中文分詞 這是一個ictclas的java實作.基本上重寫了所有的資料結構和算法.詞典是用的開源版的ictclas所提供的.并且進行了部分的人工優化 記憶體中中文分詞每秒鐘大約100萬字(速度上已經超越ictclas) 檔案讀取分詞每秒鐘大約30萬字 準确率能達到96%以上 目前實作了.中文分詞. 中文姓名識别 . 使用者自定義詞典 可以應用到自...

4:結巴分詞 ElasticSearch 插件(Star:188)

elasticsearch官方隻提供smartcn這個中文分詞插件,效果不是很好,好在國内有medcl大神(國内最早研究es的人之一)寫的兩個中文分詞插件,一個是ik的,一個是mmseg的

5:Java分布式中文分詞元件 - word分詞(Star:672)

word分詞是一個Java實作的分布式的中文分詞元件,提供了多種基于詞典的分詞算法,并利用ngram模型來消除歧義。能準确識别英文、數字,以及日期、時間等數量詞,能識别人名、地名、組織機構名等未登入詞

6:Java開源中文分詞器jcseg(Star:400)

Jcseg是什麼? Jcseg是基于mmseg算法的一個輕量級開源中文分詞器,同時內建了關鍵字提取,關鍵短語提取,關鍵句子提取和文章自動摘要等功能,并且提供了最新版本的lucene, solr, elasticsearch的分詞接口, Jcseg自帶了一個 jcseg.properties檔案...

7:中文分詞庫Paoding

庖丁中文分詞庫是一個使用Java開發的,可結合到Lucene應用中的,為網際網路、企業内部網使用的中文搜尋引擎分詞元件。Paoding填補了國内中文分詞方面開源元件的空白,緻力于此并希翼成為網際網路網站首選的中文分詞開源元件。 Paoding中文分詞追求分詞的高效率和使用者良好體驗。 Paoding...

8:中文分詞器mmseg4j

1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法(http://technology.chtsai.org/mmseg/ )實作的中文分詞器,并實作 lucene 的 analyzer 和 solr 的TokenizerFactory 以友善在Lucene和Solr中使...

9:中文分詞Ansj(Star:3015)

Ansj中文分詞 這是一個ictclas的java實作.基本上重寫了所有的資料結構和算法.詞典是用的開源版的ictclas所提供的.并且進行了部分的人工優化 記憶體中中文分詞每秒鐘大約100萬字(速度上已經超越ictclas) 檔案讀取分詞每秒鐘大約30萬字 準确率能達到96%以上 目前實作了....

10:Lucene中文分詞庫ICTCLAS4J

ictclas4j中文分詞系統是sinboy在中科院張華平和劉群老師的研制的FreeICTCLAS的基礎上完成的一個java開源分詞項目,簡化了原分詞程式的複雜度,旨在為廣大的中文分詞愛好者一個更好的學習機會。

繼續閱讀