最近,很多朋友問我solr 中文分詞配置的問題,都不知道怎麼配置,怎麼使用,原以為很簡單,沒想到這麼多朋友都有問題,是以今天就總結總結中文分詞的配置吧。
有的時候,使用者搜尋的關鍵字,可能是一句話,不是很規範。是以在 Solr 中查詢出的時候,就需要将使用者輸入的關鍵字進行分詞。
目前有很多優秀的中文分詞元件。本篇隻以 IKAnalyzer 分詞為例,講解如何在 solr 中及內建中文分詞,使用 IKAnalyzer的原因 IK 比其他中文分詞維護的勤快,和 Solr 內建也相對容易。具體就不多介紹,這裡直接solr 內建 IK 的方法。
1. 首先,下載下傳IKAnalyzer ,下載下傳
注意:以前老的IK 不支援Solr 5.3的版本 ,請注意下載下傳最新的。
2. 将ik的相關檔案 拷貝到 webapps\solr\WEB-INF\lib 目錄下
3. 在 solr_home\mycore1\conf\schema.xml 增加如下配置
同時,把需要分詞的字段,設定為text_ik,


4. 重新開機服務
注意:如果之前已經建立了索引,需要将之前的索引删掉,重新建立分詞後的索引。
5. 在admin背景, analysis 下檢視分詞效果
1. 中文分詞效果
2. 索引查詢效果
6. 配置IKAnalyzer分詞器的擴充詞典,停止詞詞典
1. 将 檔案夾下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三個檔案 複制到/webapps/solr/WEB-INF/classes 目錄下,并修改IKAnalyzer.cfg.xml


2. 在ext.dic 裡增加自己的擴充詞典,例如,嬰兒奶粉3段
注意: 記得将stopword.dic,ext.dic的編碼方式為UTF-8 無BOM的編碼方式。