ElasticSearch 分詞器，了解一下

這篇文章主要來介紹下什麼是 Analysis ，什麼是分詞器，以及 ElasticSearch 自帶的分詞器是怎麼工作的，最後會介紹下中文分詞是怎麼做的。

首先來說下什麼是 Analysis：

什麼是 Analysis？

顧名思義，文本分析就是把全文本轉換成一系列單詞（term/token）的過程，也叫分詞。在 ES 中，Analysis 是通過分詞器（Analyzer）來實作的，可使用 ES 内置的分析器或者按需定制化分析器。

舉一個分詞簡單的例子：比如你輸入 Mastering Elasticsearch，會自動幫你分成兩個單詞，一個是 mastering，另一個是 elasticsearch，可以看出單詞也被轉化成了小寫的。

ElasticSearch 分詞器，了解一下

再簡單了解了 Analysis 與 Analyzer 之後，讓我們來看下分詞器的組成：

分詞器的組成

分詞器是專門處理分詞的元件，分詞器由以下三部分組成：

Character Filters：針對原始文本處理，比如去除 html 标簽

Tokenizer：按照規則切分為單詞，比如按照空格切分

Token Filters：将切分的單詞進行加工，比如大寫轉小寫，删除 stopwords，增加同義語

ElasticSearch 分詞器，了解一下

分詞器的組成

同時 Analyzer 三個部分也是有順序的，從圖中可以看出，從上到下依次經過 Character Filters，Tokenizer 以及 Token Filters，這個順序比較好了解，一個文本進來肯定要先對文本資料進行處理，再去分詞，最後對分詞的結果進行過濾。

其中，ES 内置了許多分詞器：

Standard Analyzer - 預設分詞器，按詞切分，小寫處理

Simple Analyzer - 按照非字母切分（符号被過濾），小寫處理

Stop Analyzer - 小寫處理，停用詞過濾（the ，a，is）

Whitespace Analyzer - 按照空格切分，不轉小寫

Keyword Analyzer - 不分詞，直接将輸入當做輸出

Pattern Analyzer - 正規表達式，預設 \W+

Language - 提供了 30 多種常見語言的分詞器

Customer Analyzer - 自定義分詞器

接下來會對以上分詞器進行講解，在講解之前先來看下很有用的 API：_analyzer API：

Analyzer API

它可以通過以下三種方式來檢視分詞器是怎麼樣工作的：

直接指定 Analyzer 進行測試

GET _analyze

{

“analyzer”: “standard”,

“text” : “Mastering Elasticsearch , elasticsearch in Action”

}

指定索引的字段進行測試

POST books/_analyze

{

“field”: “title”,

“text”: “Mastering Elasticesearch”

}

自定義分詞進行測試

POST /_analyze

{

“tokenizer”: “standard”,

“filter”: [“lowercase”],

“text”: “Mastering Elasticesearch”

}

再了解了 Analyzer API 後，讓我們一起看下 ES 内置的分詞器：

ES 分詞器

首先來介紹下 Stamdard Analyzer 分詞器：

Stamdard Analyzer

ElasticSearch 分詞器，了解一下

Stamdard Analyzer

它是 ES 預設的分詞器，它會對輸入的文本按詞的方式進行切分，切分好以後會進行轉小寫處理，預設的 stopwords 是關閉的。

下面使用 Kibana 看一下它是怎麼樣進行工作的，在 Kibana 的開發工具（Dev Tools）中指定 Analyzer 為 standard，并輸入文本 In 2020, Java is the best language in the world.，然後我們運作一下：

GET _analyze

{

“analyzer”: “standard”,

“text”: “In 2020, Java is the best language in the world.”

}

運作結果如下：

{

“tokens” : [

{

“token” : “in”,

“start_offset” : 0,

“end_offset” : 2,

“type” : “”,

“position” : 0

{

“token” : “2020”,

“start_offset” : 3,

“end_offset” : 7,

“type” : “”,

“position” : 1

{

“token” : “java”,

“start_offset” : 9,

“end_offset” : 13,

“type” : “”,

“position” : 2

{

“token” : “is”,

“start_offset” : 14,

“end_offset” : 16,

“type” : “”,

“position” : 3

{

“token” : “the”,

“start_offset” : 17,

“end_offset” : 20,

“type” : “”,

“position” : 4

{

“token” : “best”,

“start_offset” : 21,

“end_offset” : 25,

“type” : “”,

“position” : 5

{

“token” : “language”,

“start_offset” : 26,

“end_offset” : 34,

“type” : “”,

“position” : 6

{

“token” : “in”,

“start_offset” : 35,

“end_offset” : 37,

“type” : “”,

“position” : 7

{

“token” : “the”,

“start_offset” : 38,

“end_offset” : 41,

“type” : “”,

“position” : 8

{

“token” : “world”,

“start_offset” : 42,

“end_offset” : 47,

“type” : “”,

“position” : 9

}

]

}

可以看出是按照空格、非字母的方式對輸入的文本進行了轉換，比如對 Java 做了轉小寫，對一些停用詞也沒有去掉，比如 in。

其中 token 為分詞結果；start_offset 為起始偏移；end_offset 為結束偏移；position 為分詞位置。

下面來看下 Simple Analyzer 分詞器：

Simple Analyzer

ElasticSearch 分詞器，了解一下

Simple Analyzer

它隻包括了 Lower Case 的 Tokenizer，它會按照非字母切分，非字母的會被去除，最後對切分好的做轉小寫處理，然後接着用剛才的輸入文本，分詞器換成 simple 來進行分詞，運作結果如下：

{

“tokens” : [

{

“token” : “in”,

“start_offset” : 0,

“end_offset” : 2,

“type” : “word”,

“position” : 0

{

“token” : “java”,

“start_offset” : 9,

“end_offset” : 13,

“type” : “word”,

“position” : 1

{

“token” : “is”,

“start_offset” : 14,

“end_offset” : 16,

“type” : “word”,

“position” : 2

{

“token” : “the”,

“start_offset” : 17,

“end_offset” : 20,

“type” : “word”,

“position” : 3

{

“token” : “best”,

“start_offset” : 21,

“end_offset” : 25,

“type” : “word”,

“position” : 4

{

“token” : “language”,

“start_offset” : 26,

“end_offset” : 34,

“type” : “word”,

“position” : 5

{

“token” : “in”,

“start_offset” : 35,

“end_offset” : 37,

“type” : “word”,

“position” : 6

{

“token” : “the”,

“start_offset” : 38,

“end_offset” : 41,

“type” : “word”,

“position” : 7

{

“token” : “world”,

“start_offset” : 42,

“end_offset” : 47,

“type” : “word”,

“position” : 8

}

]

}

從結果中可以看出，數字 2020 被去除掉了，說明非字母的的确會被去除，所有的詞也都做了小寫轉換。

現在，我們來看下 Whitespace Analyzer 分詞器：

Whitespace Analyzer

ElasticSearch 分詞器，了解一下

Whitespace Analyzer

它非常簡單，根據名稱也可以看出是按照空格進行切分的，下面我們來看下它是怎麼樣工作的：

{

“tokens” : [

{

“token” : “In”,

“start_offset” : 0,

“end_offset” : 2,

“type” : “word”,

“position” : 0

{

“token” : “2020,”,

“start_offset” : 3,

“end_offset” : 8,

“type” : “word”,

“position” : 1

{

“token” : “Java”,

“start_offset” : 9,

“end_offset” : 13,

“type” : “word”,

“position” : 2

{

“token” : “is”,

“start_offset” : 14,

“end_offset” : 16,

“type” : “word”,

“position” : 3

{

“token” : “the”,

“start_offset” : 17,

“end_offset” : 20,

“type” : “word”,

“position” : 4

{

“token” : “best”,

“start_offset” : 21,

“end_offset” : 25,

“type” : “word”,

“position” : 5

{

“token” : “language”,

“start_offset” : 26,

“end_offset” : 34,

“type” : “word”,

“position” : 6

{

“token” : “in”,

“start_offset” : 35,

“end_offset” : 37,

“type” : “word”,

“position” : 7

{

“token” : “the”,

“start_offset” : 38,

“end_offset” : 41,

“type” : “word”,

“position” : 8

{

“token” : “world.”,

“start_offset” : 42,

“end_offset” : 48,

“type” : “word”,

“position” : 9

}

]

}

可以看出，隻是按照空格進行切分，2020 數字還是在的，Java 的首字母還是大寫的，, 還是保留的。

接下來看 Stop Analyzer 分詞器：

Stop Analyzer

ElasticSearch 分詞器，了解一下

Stop Analyzer

它由 Lowe Case 的 Tokenizer 和 Stop 的 Token Filters 組成的，相較于剛才提到的 Simple Analyzer，多了 stop 過濾，stop 就是會把 the，a，is 等修飾詞去除，同樣讓我們看下運作結果：

{

“tokens” : [

{

“token” : “java”,

“start_offset” : 9,

“end_offset” : 13,

“type” : “word”,

“position” : 1

{

“token” : “best”,

“start_offset” : 21,

“end_offset” : 25,

“type” : “word”,

“position” : 4

{

“token” : “language”,

“start_offset” : 26,

“end_offset” : 34,

“type” : “word”,

“position” : 5

{

“token” : “world”,

“start_offset” : 42,

“end_offset” : 47,

“type” : “word”,

“position” : 8

}

]

}

可以看到 in is the 等詞都被 stop filter過濾掉了。

接下來看下 Keyword Analyzer：

Keyword Analyzer

ElasticSearch 分詞器，了解一下

Keyword Analyzer

它其實不做分詞處理，隻是将輸入作為 Term 輸出，我們來看下運作結果：

{

“tokens” : [

{

“token” : “In 2020, Java is the best language in the world.”,

“start_offset” : 0,

“end_offset” : 48,

“type” : “word”,

“position” : 0

}

]

}

我們可以看到，沒有對輸入文本進行分詞，而是直接作為 Term 輸出了。

接下來看下 Pattern Analyzer：

Pattern Analyzer

ElasticSearch 分詞器，了解一下

Pattern Analyzer

它可以通過正規表達式的方式進行分詞，預設是用 \W+ 進行分割的，也就是非字母的符合進行切分的，由于運作結果和 Stamdard Analyzer 一樣，就不展示了。

Language Analyzer

ES 為不同國家語言的輸入提供了 Language Analyzer 分詞器，在裡面可以指定不同的語言，我們用 english 進行分詞看下：

{

“tokens” : [

{

“token” : “2020”,

“start_offset” : 3,

“end_offset” : 7,

“type” : “”,

“position” : 1

{

“token” : “java”,

“start_offset” : 9,

“end_offset” : 13,

“type” : “”,

“position” : 2

{

“token” : “best”,

“start_offset” : 21,

“end_offset” : 25,

“type” : “”,

“position” : 5

{

“token” : “languag”,

“start_offset” : 26,

“end_offset” : 34,

“type” : “”,

“position” : 6

{

“token” : “world”,

“start_offset” : 42,

“end_offset” : 47,

“type” : “”,

“position” : 9

}

]

}

可以看出 language 被改成了 languag，同時它也是有 stop 過濾器的，比如 in,is 等詞也被去除了。

最後，讓我們看下中文分詞：

中文分詞

中文分詞有特定的難點，不像英文，單詞有自然的空格作為分隔，在中文句子中，不能簡單地切分成一個個的字，而是需要分成有含義的詞，但是在不同的上下文，是有不同的了解的。

比如以下例子：

在這些，企業中，國有，企業，有十個/在這些，企業，中國，有企業，有十個

各國，有，企業，相繼，倒閉/各，國有，企業，相繼，倒閉

羽毛球，拍賣，完了/羽毛球拍，賣，完了

那麼，讓我們來看下 ICU Analyzer 分詞器，它提供了 Unicode 的支援，更好的支援亞洲語言！

我們先用 standard 來分詞，以便于和 ICU 進行對比。

GET _analyze

{

“analyzer”: “standard”,

“text”: “各國有企業相繼倒閉”

}

運作結果就不展示了，分詞是一個字一個字切分的，明顯效果不是很好，接下來用 ICU 進行分詞，分詞結果如下：

{

“tokens” : [

{

“token” : “各國”,

“start_offset” : 0,

“end_offset” : 2,

“type” : “”,

“position” : 0

{

“token” : “有”,

“start_offset” : 2,

“end_offset” : 3,

“type” : “”,

“position” : 1

{

“token” : “企業”,

“start_offset” : 3,

“end_offset” : 5,

“type” : “”,

“position” : 2

{

“token” : “相繼”,

“start_offset” : 5,

“end_offset” : 7,

“type” : “”,

“position” : 3

{

“token” : “倒閉”,

“start_offset” : 7,

“end_offset” : 9,

“type” : “”,

“position” : 4

}

]

}

可以看到分成了各國，有，企業，相繼，倒閉，顯然比剛才的效果好了很多。

還有許多中文分詞器，在這裡列舉幾個：

IK：

支援自定義詞庫，支援熱更新分詞字典

https://github.com/medcl/elasticsearch-analysis-ik

jieba：

Python 中最流行的分詞系統，支援分詞和詞性标注

支援繁體分詞、自定義詞典、并行分詞等

https://github.com/sing1ee/elasticsearch-jieba-plugin

THULAC：

THU Lexucal Analyzer for Chinese, 清華大學自然語言處理和社會人文計算實驗室的一套中文分詞器

https://github.com/thunlp/THULAC-Java

大家可以自己安裝下，看下它中文分詞效果。

總結

本文主要介紹了 ElasticSearch 自帶的分詞器，學習了使用 _analyzer API 去檢視它的分詞情況，最後還介紹下中文分詞是怎麼做的。

ElasticSearch 分詞器，了解一下

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method