ElasticSearch IK分詞器配置檔案 以及自定義詞庫
更多幹貨
- 分布式實戰(幹貨)
- spring cloud 實戰(幹貨)
- mybatis 實戰(幹貨)
- spring boot 實戰(幹貨)
- React 入門實戰(幹貨)
- 建構中小型網際網路企業架構(幹貨)
- python 學習持續更新
- ElasticSearch 筆記
一、概述
- ik配置檔案
- 如何自己建立詞庫
- 自己建立停用詞庫(不想去建立索引)
二、ik配置檔案
ik配置檔案位址:es/plugins/ik/config目錄
- IKAnalyzer.cfg.xml:用來配置自定義詞庫
- main.dic:ik原生内置的中文詞庫,總共有27萬多條,隻要是這些單詞,都會被分在一起
- quantifier.dic:放了一些機關相關的詞
- suffix.dic:放了一些字尾
- surname.dic:中國的姓氏
- stopword.dic:英文停用詞
ik原生最重要的兩個配置檔案
- main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞
- stopword.dic:包含了英文的停用詞
停用詞,stopword 如:
a the and at but
一般,像停用詞,會在分詞的時候,直接被幹掉,不會建立在反向索引中
三、自定義詞庫
3.1 自己建立詞庫
- 每年都會湧現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典裡
- 自己補充自己的最新的詞語,到ik的詞庫裡面去
- 補充自己的詞語,然後需要重新開機es,才能生效
IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic
3.2 自己建立停用詞庫
停用詞庫:比如了,的,啥,麼,我們可能并不想去建立索引,讓人家搜尋
custom/ext_stopword.dic,已經有了常用的中文停用詞,可以補充自己的停用詞,然後重新開機es
更多相關文章
- ElasticSearch 筆記
- 1_ElasticSearch使用term filter來搜尋資料
- 2_ElasticSearch filter執行原理 bitset機制與caching機制
- 3_ElasticSearch 基于bool組合多個filter條件來搜尋資料
- 4_ElasticSearch 使用terms搜尋多個值
- 5_ElasticSearch 基于range filter來進行範圍過濾
- 6_ElasticSearch 控制全文檢索結果的精準度
- 7_ElasticSearch term+bool實作的multiword搜尋原理
- 8_基于boost的搜尋條件權重控制
- 9_ElasticSearch 多shard場景下relevance score不準确
- 10_ElasticSearch dis_max實作best fields政策進行多字段搜尋
- 11_ElasticSearch 基于tie_breaker參數優化dis_max搜尋效果
- 12_ElasticSearch multi_match文法實作dis_max+tie_breaker
- 13_ElasticSearch multi_match+most fiels政策進行multi-field搜尋
- 14_ElasticSearch 使用most_fields政策進行cross-fields search
- 15_ElasticSearch copy_to定制組合field進行cross-fields搜尋
- 16_ElasticSearch 使用原生cross-fiels 查詢
- 17_ElasticSearch phrase matching搜尋
- 18_ElasticSearch 基于slop參數實作近似比對
- 19_ElasticSearch 使用match和近似比對實作召回率與精準度的平衡
- 20_ElasticSearch rescoring機制優化近似比對搜尋的性能
- 21_ElasticSearch 字首搜尋、通配符搜尋、正則搜尋
- 22_ElasticSearch 搜尋推薦match_phrase_prefix實作search-time
- 23_ElsaticSearch 搜尋推薦ngram分詞機制實作index-time更多幹貨
- 24_ElasticSearch TF&IDF算法以及向量空間模型
- 25_ElasticSearch 揭秘lucene的相關度分數算法
- 26_ElasticSearch 四種常見的相關度分數優化方法
- 27_ElasticSearch用function_score自定義相關度分數算法
- 28_ElasticSearch誤拼寫時的fuzzy模糊搜尋技術
- 日志管理ELK