分詞器
分詞器彙總
分詞器 | 拆分方式 |
standard | 空格 |
simple | 非字母 |
whitespace | 空格 |
stop | 去除英文的助詞(a the is) |
keyword | 不拆分(關鍵詞) |
ik_max_word | 最大詞彙拆分 |
ik_smart | 最小詞彙拆分 |
預設分詞器
POST /_analyze
{
"analyzer": "standard",
"text": ["I study in imooc.com!"]
}
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiI0gTMx81dsQWZ4lmZf1GLlpXazVmcvwFciV2dsQXYtJ3bm9CX9s2RkBnVHFmb1clWvB3MaVnRtp1XlBXe0xCMy81dvRWYoNHLwEzX5xCMx8FesU2cfdGLwMzX0xiRGZkRGZ0Xy9GbvNGLpZTY1EmMZVDUSFTU4VFRR9Fd4VGdsYTMfVmepNHLrJXYtJXZ0F2dvwVZnFWbp1zczV2YvJHctM3cv1Ce-cmbw5CN1IzM4UTZzADMyUGM1ADNzYzX0MjNxADM4AzLcBTMyIDMy8CXn9Gbi9CXzV2Zh1WavwVbvNmLvR3YxUjLyM3Lc9CX6MHc0RHaiojIsJye.png)
預設分詞器, 英文按照空格拆分, 中文直接拆成單個漢字, 大寫自動轉小寫
在指定索引中分析指定字段
POST /my_doc/_analyze
{
"analyzer": "standard",
"field": "desc",
"text": ["study in imooc"]
}
ES內建IK
下載下傳
https://github.com/medcl/elasticsearch-analysis-ik/releases?page=7
安裝
上傳到Linux
# 解壓到插件庫下
unzip elasticsearch-analysis-ik-7.4.2.zip -d /usr/local/es/plugins/ik
重新開機es
ik內建完成
配置自定義字庫
修改ik/config/IKAnalyzer.cfg.xml
vi IKAnalyzer.cfg.xml
vi cust.dic
再次執行分詞