天天看點

elasticsearch中國字(mmseg)——手動添加字典

elasticsearch中國文字本身并不是一個理想的插件效果。手動添加字典可以補償在一定程度上。

後發現了幾個實驗,mmseg分段機制采用正向最長比對算法。例如,抵抗“小時報”這個單詞,其内置的字典中不包括字,是以,當使用者搜尋小的時間時。果。

在鹹魚老婆的虛心指導下,我最終找到了解決的方法。

手動加入該詞到mmseg的詞庫中,有兩種方法:

1、将該詞增加到自帶的某個詞典中(非停頓詞詞典)。如words-my.dic。

2、建立一個自己定義詞典,将其放入預設詞庫目錄下。注意編碼格式為以UTF-8無BOM格式編碼。

(注意:假設将elasticsearch部署在叢集時,對應的配置檔案詞典均需改動)

期間,鹹魚老婆一直對我循循善誘的指導,令我茅塞頓開。

同一時候,還不厭其煩的為我撥開我最愛的小桂圓,令我甚是感動。

相信若幹年後。回味起解決手動加入詞庫問題的今晚,仍然會感到一股暖流湧上心頭。

重新啟動elasticsearch服務:elasticsearch restart

針對目标檔案,又一次建立索引,搜尋“小時代”,就可以查詢到目标檔案。

最後。再次感謝我親愛的鹹魚老婆。撒狼黑色的!!

下一篇: 代碼優化

繼續閱讀