搜尋引擎solr系列---solr分詞配置

2021-11-04 09:19:49

對于string類型，比如在你的core/conf/manage-schema檔案中，配置一個字段類型為string類型，如果查詢符合“我是中國人”的資料，它就認為“我是中國人”是一個詞語。

但是如果你将該字段設定成了分詞，即配置成了text_ik類型，就可能比對“我”、“中國人”、“中國”、“中”、“人”帶有這些字的該字段資料都可能被查詢到。這就是分詞帶來的結果。具體要按照各自的業務來配置是否分詞，分詞對于大文本字段設定是合理的，但是對于小字段，設定分詞是沒必要的，甚至有相反的結果。比如你的某一個叫姓名的字段設定了分詞，還不如設定string,查詢時模糊比對效果最好，（模糊比對就是查詢條件兩邊加上*），當然也要看自己業務需求是什麼。

這裡以dkdz為例，設定之前，在solr用戶端檢視是如下結果：

不好意思，我圖貼錯了，下邊的3處應該是dkdz，不是dkbm!!

配置分詞如下：

配置之後，在solr用戶端的core admin中，reload該core，再次檢視，變成如下頁面：

如果變成了上邊這種結果，就說明分詞成功了。對于分詞後的字段，如果在查詢結果上有歧義，最好是來到solr用戶端的上邊位置，看下你的條件是不是因為分詞，給分成了不是你想要的那種結果。

下一篇寫，分詞添加自定義擴充詞庫

搜尋引擎solr系列---solr分詞配置

繼續閱讀

自學Linux Shell12.4-for指令

中文排序規則

淺析PHP Socket技術

TCP連接配接狀态詳細解釋

Mysql 8 - 檢查限制

Java網絡程式設計-Socket程式設計初涉二（基于BIO模型的簡易多人聊天室）

網絡層 ICMP與ping：投石問路的偵察兵

【Solr現網問題】索引文檔數量超限

Thrift開發之 windows上安裝

知名測網速工具，已解鎖全功能

使用 Spring AOP 時報錯

mysql5.7的sql優化

CLIENT_PLUGIN_AUTH is required

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

Java網絡程式設計-Socket程式設計初涉三（僞異步I/O模型的簡易多人聊天室）

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch