天天看點

30_ElasticSearch IK分詞器配置檔案 以及自定義詞庫ElasticSearch IK分詞器配置檔案 以及自定義詞庫

ElasticSearch IK分詞器配置檔案 以及自定義詞庫

更多幹貨

  • 分布式實戰(幹貨)
  • spring cloud 實戰(幹貨)
  • mybatis 實戰(幹貨)
  • spring boot 實戰(幹貨)
  • React 入門實戰(幹貨)
  • 建構中小型網際網路企業架構(幹貨)
  • python 學習持續更新
  • ElasticSearch 筆記

一、概述

  • ik配置檔案
  • 如何自己建立詞庫
  • 自己建立停用詞庫(不想去建立索引)

二、ik配置檔案

ik配置檔案位址:es/plugins/ik/config目錄

  • IKAnalyzer.cfg.xml:用來配置自定義詞庫
  • main.dic:ik原生内置的中文詞庫,總共有27萬多條,隻要是這些單詞,都會被分在一起
  • quantifier.dic:放了一些機關相關的詞
  • suffix.dic:放了一些字尾
  • surname.dic:中國的姓氏
  • stopword.dic:英文停用詞

ik原生最重要的兩個配置檔案

  • main.dic:包含了原生的中文詞語,會按照這個裡面的詞語去分詞
  • stopword.dic:包含了英文的停用詞

停用詞,stopword 如:

a the and at but      

一般,像停用詞,會在分詞的時候,直接被幹掉,不會建立在反向索引中

三、自定義詞庫

3.1 自己建立詞庫

  • 每年都會湧現一些特殊的流行詞,網紅,藍瘦香菇,喊麥,鬼畜,一般不會在ik的原生詞典裡
  • 自己補充自己的最新的詞語,到ik的詞庫裡面去
  • 補充自己的詞語,然後需要重新開機es,才能生效
IKAnalyzer.cfg.xml:ext_dict,custom/mydict.dic      

3.2 自己建立停用詞庫

停用詞庫:比如了,的,啥,麼,我們可能并不想去建立索引,讓人家搜尋

custom/ext_stopword.dic,已經有了常用的中文停用詞,可以補充自己的停用詞,然後重新開機es      

更多相關文章

  • ElasticSearch 筆記
  • 1_ElasticSearch使用term filter來搜尋資料
  • 2_ElasticSearch filter執行原理 bitset機制與caching機制
  • 3_ElasticSearch 基于bool組合多個filter條件來搜尋資料
  • 4_ElasticSearch 使用terms搜尋多個值
  • 5_ElasticSearch 基于range filter來進行範圍過濾
  • 6_ElasticSearch 控制全文檢索結果的精準度
  • 7_ElasticSearch term+bool實作的multiword搜尋原理
  • 8_基于boost的搜尋條件權重控制
  • 9_ElasticSearch 多shard場景下relevance score不準确
  • 10_ElasticSearch dis_max實作best fields政策進行多字段搜尋
  • 11_ElasticSearch 基于tie_breaker參數優化dis_max搜尋效果
  • 12_ElasticSearch multi_match文法實作dis_max+tie_breaker
  • 13_ElasticSearch multi_match+most fiels政策進行multi-field搜尋
  • 14_ElasticSearch 使用most_fields政策進行cross-fields search
  • 15_ElasticSearch copy_to定制組合field進行cross-fields搜尋
  • 16_ElasticSearch 使用原生cross-fiels 查詢
  • 17_ElasticSearch phrase matching搜尋
  • 18_ElasticSearch 基于slop參數實作近似比對
  • 19_ElasticSearch 使用match和近似比對實作召回率與精準度的平衡
  • 20_ElasticSearch rescoring機制優化近似比對搜尋的性能
  • 21_ElasticSearch 字首搜尋、通配符搜尋、正則搜尋
  • 22_ElasticSearch 搜尋推薦match_phrase_prefix實作search-time
  • 23_ElsaticSearch 搜尋推薦ngram分詞機制實作index-time更多幹貨
  • 24_ElasticSearch TF&IDF算法以及向量空間模型
  • 25_ElasticSearch 揭秘lucene的相關度分數算法
  • 26_ElasticSearch 四種常見的相關度分數優化方法
  • 27_ElasticSearch用function_score自定義相關度分數算法
  • 28_ElasticSearch誤拼寫時的fuzzy模糊搜尋技術
  • 日志管理ELK

繼續閱讀