solr搜尋分詞優化

2021-11-04 09:48:30

solr伺服器配置好在搜尋時經常會搜出無關内容，把不該分的詞給分了，導緻客戶找不到自己需要的内容，那麼我們就從配置詞典入手解決這個問題。

首先需要知道自帶的詞典含義：

停止詞：停止詞是無功能意義的詞，比如is 、a 、are 、”的”，“得”，“我” 等，這些詞會在句子中多次出現卻無意義，是以在分詞的時候需要把這些詞過濾掉。

擴充詞庫：就是不想讓哪些詞被分開，讓他們分成一個詞。

同義詞：假設有一個電子商務系統，銷售書籍，提供了一個搜尋引擎，一天，市場部的人要求客戶在搜尋書籍時，同義詞就是比如輸入“電子”，除了展示電子相關的書籍，還需要展現“機器”相關的書籍。

将IKAnalyzer解壓檔案夾下的stopword.dic和IKAnalyzer.cfg.xml複制到tomcat/webapps/solr/WEB-INF/classes下，再建立一個ext.dic,裡面的格式和stopword.dic一緻。

并修改IKAnalyzer.cfg.xml如下面的格式可以配置多個停止詞或者擴充詞庫檔案。

在solr資料檔案conf目錄下schema.xml 中加入以下兩個字段：

在 schema.xml 中增加 text_syn 類型的定義：

在相同的conf目錄下的 synonyms.txt 中增加

西安，長安，13朝古都，陝西省會

那麼在下次搜尋西安時也會帶出後面的。

針對每個商品設定搜尋關鍵詞，同步到擴充詞庫中；

全局設定不想被分詞的詞，放到停止詞庫中；

全局設定想關聯的同義詞，放到同義詞中；

繼續閱讀