Elasticsearch7.x使用(五) ICU分詞插件

2023-04-13 20:53:24

1、檢視目前已經安裝的分詞插件

[[email protected] bin]$ ./elasticsearch-plugin list
analysis-icu
analysis-ik

引用網上對ICU分詞的介紹：

ICU Analysis插件是一組将Lucene ICU子產品內建到Elasticsearch中的庫。本質上，ICU的目的是增加對Unicode和全球化的支援，以提供對亞洲語言更好的文本分割分析。從Elasticsearch的角度來看，此插件提供了文本分析中的新元件，如下表所示:

Elasticsearch7.x使用(五) ICU分詞插件

常用分詞

1)普通分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "standard"
}

GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "keyword"
}

2)IK 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "ik_max_word"
}

3) ICU 分詞
GET _analyze
{
  "text": ["他是一個前端開發工程師"],
  "analyzer": "icu_analyzer"
}

ICU分詞測試：

{
  "tokens" : [
    {
      "token" : "他是",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "<IDEOGRAPHIC>",
      "position" : 0
    },
    {
      "token" : "一個",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "<IDEOGRAPHIC>",
      "position" : 1
    },
    {
      "token" : "前端",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "<IDEOGRAPHIC>",
      "position" : 2
    },
    {
      "token" : "開發",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "<IDEOGRAPHIC>",
      "position" : 3
    },
    {
      "token" : "工程",
      "start_offset" : 8,
      "end_offset" : 10,
      "type" : "<IDEOGRAPHIC>",
      "position" : 4
    },
    {
      "token" : "師",
      "start_offset" : 10,
      "end_offset" : 11,
      "type" : "<IDEOGRAPHIC>",
      "position" : 5
    }
  ]
}

Elasticsearch7.x使用(五) ICU分詞插件

繼續閱讀

k8s部署es叢集和kibana

ElasticSearch：部署ElasticSearch & Kibana

ES分詞插件IK Analyzer安裝

【elasticsearch】The number of object passed must be even but was [1]1.概述

跟據經緯度實作附近搜尋Java實作

【最新 v7.9】Elasticsearch的基本概念與配置

圖解elasticsearch的_source、_all、store和index

深入elasticsearch源碼之環境搭建

elasticsearch 的 Percolator操作

es使用項目中遇到的問題

15.profile-api

【轉】ElasticSearch是什麼以及應用場景

ElasticSearch是什麼以及應用場景ES是如何産生的？ES 基礎一網打盡ES特點和優勢為什麼要用ES？ES的應用場景是怎樣的？

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch