天天看點

Solr學習總結(八)IK 中文分詞的配置和使用

最近,很多朋友問我solr 中文分詞配置的問題,都不知道怎麼配置,怎麼使用,原以為很簡單,沒想到這麼多朋友都有問題,是以今天就總結總結中文分詞的配置吧。

  有的時候,使用者搜尋的關鍵字,可能是一句話,不是很規範。是以在 Solr 中查詢出的時候,就需要将使用者輸入的關鍵字進行分詞。

  目前有很多優秀的中文分詞元件。本篇隻以  IKAnalyzer 分詞為例,講解如何在 solr  中及內建中文分詞,使用 IKAnalyzer的原因 IK 比其他中文分詞維護的勤快,和 Solr 內建也相對容易。具體就不多介紹,這裡直接solr 內建 IK 的方法。

  1. 首先,下載下傳IKAnalyzer ,下載下傳

    注意:以前老的IK 不支援Solr 5.3的版本 ,請注意下載下傳最新的。

  2. 将ik的相關檔案 拷貝到 webapps\solr\WEB-INF\lib 目錄下

  3. 在 solr_home\mycore1\conf\schema.xml 增加如下配置

   同時,把需要分詞的字段,設定為text_ik,

Solr學習總結(八)IK 中文分詞的配置和使用
Solr學習總結(八)IK 中文分詞的配置和使用

  4. 重新開機服務

    注意:如果之前已經建立了索引,需要将之前的索引删掉,重新建立分詞後的索引。

  5. 在admin背景, analysis 下檢視分詞效果

    1. 中文分詞效果

    

    2. 索引查詢效果

Solr學習總結(八)IK 中文分詞的配置和使用

  6. 配置IKAnalyzer分詞器的擴充詞典,停止詞詞典

    1. 将 檔案夾下的IKAnalyzer.cfg.xml , ext.dic和stopword.dic 三個檔案 複制到/webapps/solr/WEB-INF/classes 目錄下,并修改IKAnalyzer.cfg.xml

Solr學習總結(八)IK 中文分詞的配置和使用
Solr學習總結(八)IK 中文分詞的配置和使用

    2. 在ext.dic 裡增加自己的擴充詞典,例如,嬰兒奶粉3段

     

Solr學習總結(八)IK 中文分詞的配置和使用

    注意:  記得将stopword.dic,ext.dic的編碼方式為UTF-8 無BOM的編碼方式。 

繼續閱讀