1、檢視目前已經安裝的分詞插件
[[email protected] bin]$ ./elasticsearch-plugin list
analysis-icu
analysis-ik
引用網上對ICU分詞的介紹:
ICU Analysis插件是一組将Lucene ICU子產品內建到Elasticsearch中的庫。 本質上,ICU的目的是增加對Unicode和全球化的支援,以提供對亞洲語言更好的文本分割分析。 從Elasticsearch的角度來看,此插件提供了文本分析中的新元件,如下表所示:

常用分詞
1)普通分詞
GET _analyze
{
"text": ["他是一個前端開發工程師"],
"analyzer": "standard"
}
GET _analyze
{
"text": ["他是一個前端開發工程師"],
"analyzer": "keyword"
}
2)IK 分詞
GET _analyze
{
"text": ["他是一個前端開發工程師"],
"analyzer": "ik_max_word"
}
3) ICU 分詞
GET _analyze
{
"text": ["他是一個前端開發工程師"],
"analyzer": "icu_analyzer"
}
ICU分詞測試:
{
"tokens" : [
{
"token" : "他是",
"start_offset" : 0,
"end_offset" : 2,
"type" : "<IDEOGRAPHIC>",
"position" : 0
},
{
"token" : "一個",
"start_offset" : 2,
"end_offset" : 4,
"type" : "<IDEOGRAPHIC>",
"position" : 1
},
{
"token" : "前端",
"start_offset" : 4,
"end_offset" : 6,
"type" : "<IDEOGRAPHIC>",
"position" : 2
},
{
"token" : "開發",
"start_offset" : 6,
"end_offset" : 8,
"type" : "<IDEOGRAPHIC>",
"position" : 3
},
{
"token" : "工程",
"start_offset" : 8,
"end_offset" : 10,
"type" : "<IDEOGRAPHIC>",
"position" : 4
},
{
"token" : "師",
"start_offset" : 10,
"end_offset" : 11,
"type" : "<IDEOGRAPHIC>",
"position" : 5
}
]
}