天天看點

ES7學習筆記(七)IK中文分詞器

在上一節中,我們給大家介紹了ES的分析器,我相信大家對ES的全文搜尋已經有了深刻的印象。分析器包含3個部分:字元過濾器、分詞器、分詞過濾器。在上一節的例子,大家發現了,都是英文的例子,是吧?因為ES是外國人寫的嘛,中國如果要在這方面趕上來,還是需要螢幕前的小夥伴們的~

英文呢,我們可以按照空格将一句話、一篇文章進行分詞,然後對分詞進行過濾,最後留下有意義的詞。但是中文怎麼分呢?中文的一句話是沒有空格的,這就要有一個強大的中文詞庫,當你的内容中出現這個詞時,就會将這個詞提煉出來。這裡大家也不用重複造輪子,經過前輩的努力,這個中文的分詞器已經有了,它就是今天要給大家介紹的IK中文分詞器。

IK中文分詞器的安裝

ES預設是沒有IK中文分詞器的,我們要将IK中文分詞器作為一個插件安裝到ES中,安裝的步驟也很簡單:

  1. 從GitHub上下載下傳适合自己ES版本的IK中文分詞器,位址如下:

    https://github.com/medcl/elasticsearch-analysis-ik/releases

  2. 在我們的ES的插件目錄中(

    ${ES_HOME}/plugins

    )建立

    ik

    目錄,
    mkdir ik           
  3. 将我們下載下傳好的IK分詞器解壓到

    ik

    目錄,這裡我們安裝

    unzip

    指令,進行解壓。
  4. 重新開機我們所有的ES服務。

到這裡,我們的IK中文分詞器就安裝完了。

IK中文分詞器初探

在上一節我們通路了ES的分析器接口,指定了分析器和文本的内容,我們就可以看到分詞的結果。那麼既然我們已經安裝了Ik中文分詞器,當然要看一下效果了。在看效果之前,我們先要說一下,IK中文分詞器插件給我們提供了兩個分析器。

  • ik_max_word: 會将文本做最細粒度的拆分
  • ik_smart:會做最粗粒度的拆分

我們先看看

ik_max_word

的分析效果吧,

POST _analyze
{
  "analyzer": "ik_max_word",
  "text":     "中華人民共和國國歌"
}           

我們指定分詞器為

ik_max_word

,文本内容為

中華人民共和國國歌

。我們看一下分詞的結果:

{
    "tokens": [
        {
            "token": "中華人民共和國",
            "start_offset": 0,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "中華人民",
            "start_offset": 0,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 1
        },
        {
            "token": "中華",
            "start_offset": 0,
            "end_offset": 2,
            "type": "CN_WORD",
            "position": 2
        },
        {
            "token": "華人",
            "start_offset": 1,
            "end_offset": 3,
            "type": "CN_WORD",
            "position": 3
        },
        {
            "token": "人民共和國",
            "start_offset": 2,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 4
        },
        {
            "token": "人民",
            "start_offset": 2,
            "end_offset": 4,
            "type": "CN_WORD",
            "position": 5
        },
        {
            "token": "共和國",
            "start_offset": 4,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 6
        },
        {
            "token": "共和",
            "start_offset": 4,
            "end_offset": 6,
            "type": "CN_WORD",
            "position": 7
        },
        {
            "token": "國",
            "start_offset": 6,
            "end_offset": 7,
            "type": "CN_CHAR",
            "position": 8
        },
        {
            "token": "國歌",
            "start_offset": 7,
            "end_offset": 9,
            "type": "CN_WORD",
            "position": 9
        }
    ]
}           

我們可以看到,分詞分的非常細,我們在使用上面的這些進行搜尋時,都可以搜尋到

中華人民共和國國歌

這個文本。我們再看一下另外一個分析器

ik_smart

POST _analyze
{
  "analyzer": "ik_smart",
  "text":     "中華人民共和國國歌"
}           

我們的文本内容同樣是

中華人民共和國國歌

,看一下分詞的效果,

{
    "tokens": [
        {
            "token": "中華人民共和國",
            "start_offset": 0,
            "end_offset": 7,
            "type": "CN_WORD",
            "position": 0
        },
        {
            "token": "國歌",
            "start_offset": 7,
            "end_offset": 9,
            "type": "CN_WORD",
            "position": 1
        }
    ]
}           

同樣的文本,使用

ik_smart

進行分詞時,隻分成了兩個詞,和

ik_max_word

分詞器比少了很多。這就是兩個分詞器的差別,不過這兩個分析器都是可以對中文進行分詞的。

建立索引時指定IK分詞器

既然我們安裝了IK中文分詞器的插件,那麼我們在建立索引時就可以為

text

類型的字段指定IK中文分詞器了。來看看下面的例子,

PUT ik_index
{
    "mappings": {
        "properties": {
            "id": {
                "type": "long"
            },
            "title": {
                "type": "text",
                "analyzer": "ik_max_word"
            }
        }
    }
}           

我們建立了索引

ik_index

,并且為字段

title

指定了分詞器

ik_max_word

。我們執行一下,建立成功。然後我們再通過

GET

請求看一下這個索引的映射情況。

GET ik_index/_mapping           

傳回的結果如下:

{
    "ik_index": {
        "mappings": {
            "properties": {
                "id": {
                    "type": "long"
                },
                "title": {
                    "type": "text",
                    "analyzer": "ik_max_word"
                }
            }
        }
    }
}           

我們可以看到

title

字段的分析器是

ik_max_word

為索引指定預設IK分詞器

在上一節中,我們已經給大家介紹了為索引指定預設分詞器的方法,這裡我們直接把分詞器改為IK分詞器就可以了,如下:

PUT ik_index
{
  "settings": {
    "analysis": {
      "analyzer": {
        "default": {
          "type": "ik_max_word"
        }
      }
    }
  }
}           

這樣我們在索引中就不用建立每一個字段,可以通過動态字段映射,将

String

類型的字段映射為

text

類型,同時分詞器指定為

ik_max_word

。我們試一下,向

ik_index

索引中添加一條記錄。

POST ik_index/_doc/1
{
    "id": 1,
    "title": "大興龐各莊的西瓜",
    "desc": "大興龐各莊的西瓜真是好吃,脆沙瓤,甜掉牙"
}           

執行成功。我們再執行搜尋試一下,如下:

POST ik_index/_search
{
  "query": { "match": { "title": "西瓜" } }
}           

我們搜尋

title

字段比對

西瓜

,執行結果如下:

{
    "took": 2,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 1,
            "relation": "eq"
        },
        "max_score": 0.2876821,
        "hits": [
            {
                "_index": "ik_index",
                "_type": "_doc",
                "_id": "1",
                "_score": 0.2876821,
                "_source": {
                    "id": 1,
                    "title": "大興龐各莊的西瓜",
                    "desc": "大興龐各莊的西瓜真是好吃,脆沙瓤,甜掉牙"
                }
            }
        ]
    }
}           

我們可以看到剛才插入的那條記錄已經搜尋出來了,看來我們的IK中文分詞器起作用了,而且搜尋的結果也符合我們的預期。我們再看看搜尋

西

一個字的時候,能不能搜尋到結果,

POST ik_index/_search
{
  "query": { "match": { "title": "西" } }
}           

執行結果如下:

{
    "took": 4,
    "timed_out": false,
    "_shards": {
        "total": 1,
        "successful": 1,
        "skipped": 0,
        "failed": 0
    },
    "hits": {
        "total": {
            "value": 0,
            "relation": "eq"
        },
        "max_score": null,
        "hits": []
    }
}           

并沒有搜尋出結果,說明在進行分詞時,

西瓜

是作為一個詞出現的,并沒有拆分成每一個字,這也是符合我們預期的。

好了~ 這一節的IK中文分詞器就給大家介紹到這裡了~~

繼續閱讀