elasticsearch 分析器

2023-04-06 11:53:55

一、Elasticsearch的分析器（analyzer）包括三部分：

1、字元過濾器：他們的任務是在分詞前整理字元串。一個字元過濾器可以用來去掉HTML，或者将

轉化成 `and`等。

2、分詞器：簡單的分詞器遇到空格或标點的時候講文本拆分為詞條（Token）。

3、Token過濾器：改變詞條（eg: Quick --> quick）;删除詞（eg: a ,the ,and）; 增加同義詞（eg: jump == leap）

------------以上是elasticsearch權威指南中内容，适用用于西文字元-------------

二、适用于中文分詞的，目前網上看到最多的是IKAnalyzer。

IKAnalyzer分詞器采用的是“正向疊代最細粒度切分算法”。有兩種可選模式：細粒度(ik_max_word)和最大詞長(ik_smart)。以“人民大會堂”為例：

采用ik_max_word模式的分詞結果為：人民大會堂、人民大會、人民、大會、大會堂、大會、堂。

采用ik_smart模式的分詞結果為：人民大會堂。

elasticsearch查詢語句為：

curl -XGET '10x.200.x65.x27:9201/_analyze?pretty' -H 'Content-Type: application/json' -d'
{
  "analyzer": "ik_max_word",
  "text": "人民大會堂"
}'

curl -XGET '10x.200.x65.x27:9201/_analyze?pretty' -H 'Content-Type: application/json' -d'
{
  "analyzer": "ik_smart",
  "text": "人民大會堂"
}'

elasticsearch 分析器

繼續閱讀

ELK詳細分析nginx日志1. 實驗規劃2. ELK安裝3. logstash伺服器的配置4. kibana檢視配置5. 建立儀表闆顯示pv和uv

ElasticSearch：部署ElasticSearch & Kibana

ES分詞插件IK Analyzer安裝

【elasticsearch】The number of object passed must be even but was [1]1.概述

跟據經緯度實作附近搜尋Java實作

【最新 v7.9】Elasticsearch的基本概念與配置

圖解elasticsearch的_source、_all、store和index

深入elasticsearch源碼之環境搭建

elasticsearch 的 Percolator操作

es使用項目中遇到的問題

15.profile-api

【轉】ElasticSearch是什麼以及應用場景

ElasticSearch是什麼以及應用場景ES是如何産生的？ES 基礎一網打盡ES特點和優勢為什麼要用ES？ES的應用場景是怎樣的？

延雲行業搜尋資料庫在大資料生态中位置和重要性大資料的挑戰大資料技術的現狀延雲行業搜尋資料庫

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

30天了解30種技術系列---(10)面向Cloud的搜尋引擎 ElasticSearch