elasticsearch 分词器1. 分词器构造2. 案例

2023-07-15 20:48:13

elasticsearch 分词器

1. 分词器构造

一个分词器——无论内置还是自定义，是一个包含三个生成块的包：character filters, tokenizers, and token filter.（字符过滤器，断词，分词过滤）

1.1. character filters

字符过滤器接收原始文本字符流并处理它——添加、删除、更改字符。

例如：从html文本中剔除<b>标签

一个分词器可以有0或多个字符过滤器，它们是顺序执行的。

1.2. tkenizer

断词器负责分词，一个分词器只能有一个断词器。

它还记录每个token的顺序，位置，及原始单词的偏移

1.3. token filters

特征词过滤器，负责处理断词器给出的列表。

lowercase转换所有的特征词为小写，

stop从列表中移除停止词(stop words)

特征词处理器只针对特征词本身，不会改变它们的位置或者偏移；

特征词处理器可以有0个或多个。

2. 案例

下面是一个自定义分词器案例：

PUT my_index

{

"settings": {

"analysis": {

"analyzer": {

"my_custom_analyzer": {

"type": "custom",

"tokenizer": "standard",

"char_filter": [

"html_strip"

"filter": [

"lowercase",

"asciifolding"

]

}

转载于:https://www.cnblogs.com/wodeboke-y/p/11562813.html

elasticsearch 分词器1. 分词器构造2. 案例

1. 分词器构造

1.1. character filters

1.2. tkenizer

1.3. token filters

2. 案例

继续阅读

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3构建hadoop项目

HDFS命令行工具

【51CTO学院三周年】自学路上的伴侣

在线教育巨头多邻国Duolingo入华一周年，中国市场马力全开

【分类算法】什么是分类算法定义分类与聚类分类过程方法

申请评分模型拒绝推断（RI）方法申请评分模型拒绝推断（RI）方法

Sql优化一：sql语句优化

Nacos 2.0 升级前后性能对比压测

尚硅谷—韩顺平—图解 Java设计模式（结构型）（55～）

Storm编译打包过程中遇到的一些问题及解决方法

MapReduce的几个企业级经典面试案例MapReduce的几个企业级经典面试案例

9.spark Core 进阶2--Cashe

浅谈企业活动中进行数据分析的重要性

Ambari介绍和架构原理

NOSQL安全攻击

win10本地scala和spark安装安装scala安装spark