NLP（十三）中文分詞工具的使用嘗試

本文将對三種中文分詞工具進行使用嘗試，這三種工具分别為哈工大的LTP，結巴分詞以及北大的pkuseg。

首先我們先準備好環境，即需要安裝三個子產品：pyltp, jieba, pkuseg以及LTP的分型模型

cws.model

。在使用者字典中添加以下5個詞語：

經

少安

賀鳳英

F-35戰鬥機

埃達爾·阿勒坎

測試的Python代碼如下：

# -*- coding: utf-8 -*-

import os
import jieba
import pkuseg
from pyltp import Segmentor

lexicon = ['經', '少安', '賀鳳英', 'F-35戰鬥機', '埃達爾·阿勒坎'] # 自定義詞典

# 哈工大LTP分詞
def ltp_segment(sent):
    # 加載檔案
    cws_model_path = os.path.join('data/cws.model') # 分詞模型路徑，模型名稱為`cws.model`
    lexicon_path = os.path.join('data/lexicon.txt') # 參數lexicon是自定義詞典的檔案路徑
    segmentor = Segmentor()
    segmentor.load_with_lexicon(cws_model_path, lexicon_path)
    words = list(segmentor.segment(sent))
    segmentor.release()

    return words

# 結巴分詞
def jieba_cut(sent):
    for word in lexicon:
        jieba.add_word(word)
    return list(jieba.cut(sent))

# pkuseg分詞
def pkuseg_cut(sent):
    seg = pkuseg.pkuseg(user_dict=lexicon)
    words = seg.cut(sent)
    return words

sent = '盡管玉亭成家以後，他老婆賀鳳英那些年把少安媽欺負上一回又一回，怕老婆的玉亭連一聲也不敢吭，但少安他媽不計較他。'
#sent = '據此前報道，以色列于去年5月成為世界上第一個在實戰中使用F-35戰鬥機的國家。'
#sent = '小船4月8日經長江前往小鳥島。'
#sent = '1958年，埃達爾·阿勒坎出生在土耳其首都安卡拉，但他的求學生涯多在美國度過。'

print('ltp:', ltp_segment(sent))
print('jieba:', jieba_cut(sent))
print('pkuseg:', pkuseg_cut(sent))

&emsp 對于第一句話，輸出結果如下：

原文: 盡管玉亭成家以後，他老婆賀鳳英那些年把少安媽欺負上一回又一回，怕老婆的玉亭連一聲也不敢吭，但少安他媽不計較他。

ltp: ['盡管', '玉亭', '成家', '以後', '，', '他', '老婆', '賀鳳英', '那些', '年', '把', '少安', '媽', '欺負', '上', '一', '回', '又', '一', '回', '，', '怕', '老婆', '的', '玉亭', '連', '一', '聲', '也', '不', '敢', '吭', '，', '但', '少安', '他媽', '不', '計較', '他', '。']

jieba: ['盡管', '玉亭', '成家', '以後', '，', '他', '老婆', '賀鳳英', '那些', '年', '把', '少安', '媽', '欺負', '上', '一回', '又', '一回', '，', '怕老婆', '的', '玉亭', '連', '一聲', '也', '不敢', '吭', '，', '但少安', '他媽', '不', '計較', '他', '。']

pkuseg: ['盡管', '玉亭', '成家', '以後', '，', '他', '老婆', '賀鳳英', '那些', '年', '把', '少安', '媽', '欺負', '上', '一', '回', '又', '一', '回', '，', '怕', '老婆', '的', '玉亭', '連', '一', '聲', '也', '不', '敢', '吭', '，', '但', '少安', '他媽', '不', '計較', '他', '。']

對于第二句話，輸出結果如下：

原文: 據此前報道，以色列于去年5月成為世界上第一個在實戰中使用F-35戰鬥機的國家。

ltp: ['據', '此前', '報道', '，', '以色列', '于', '去年', '5月', '成為', '世界', '上', '第一', '個', '在', '實戰', '中', '使用', 'F-35', '戰鬥機', '的', '國家', '。']

jieba: ['據此', '前', '報道', '，', '以色列', '于', '去年', '5', '月', '成為', '世界', '上', '第一個', '在', '實戰', '中', '使用', 'F', '-', '35', '戰鬥機', '的', '國家', '。']

pkuseg: ['據', '此前', '報道', '，', '以色列', '于', '去年', '5月', '成為', '世界', '上', '第一', '個', '在', '實戰', '中', '使用', 'F-35戰鬥機', '的', '國家', '。']

對于第三句話，輸出結果如下：

原文: 小船4月8日經長江前往小鳥島。

ltp: ['小船', '4月', '8日', '經長江', '前往', '小鳥島', '。']

jieba: ['小船', '4', '月', '8', '日經', '長江', '前往', '小', '鳥島', '。']

pkuseg: ['小船', '4月', '8日', '經', '長江', '前往', '小鳥', '島', '。']

對于第四句話，輸出結果如下：

原文: 1958年，埃達爾·阿勒坎出生在土耳其首都安卡拉，但他的求學生涯多在美國度過。

ltp: ['1958年', '，', '埃達爾·阿勒坎', '出生', '在', '土耳其', '首都', '安卡拉', '，', '但', '他', '的', '求學', '生涯', '多', '在', '美國', '度過', '。']

jieba: ['1958', '年', '，', '埃', '達爾', '·', '阿勒', '坎', '出生', '在', '土耳其', '首都', '安卡拉', '，', '但', '他', '的', '求學', '生涯', '多', '在', '美國', '度過', '。']

pkuseg: ['1958年', '，', '埃達爾·阿勒坎', '出生', '在', '土耳其', '首都', '安卡拉', '，', '但', '他', '的', '求學', '生涯', '多', '在', '美國', '度過', '。']

接着，對以上的測試情況做一個簡單的總結：

使用者詞典方面：LTP和pkuseg的效果都很好，jieba的表現不盡如人意，這主要是因為自定義的字典的詞語裡面含有标點符号，關于該問題的解決辦法，可以參考網址：https://blog.csdn.net/weixin_42471956/article/details/80795534
從第二句話的效果來看，pkuseg的分詞效果應該是最好的，‘經’應該作為單個的詞語切分出來，而LTP和jieba即使加了自定義詞典，也沒有效果，同理，‘F-35戰鬥機’也是類似的情形。

總的來說，三者的分詞效果都很優秀，差距不是很大，但在自定義詞典這塊，無疑pkuseg的效果更加穩定些。筆者也會在以後的分詞使用中多多考慮pkuseg～

有關pkuseg的介紹與使用，可以參考網址：https://github.com/lancopku/PKUSeg-python

注意：不妨了解下筆者的微信公衆号： Python爬蟲與算法（微信号為：easy_web_scrape），歡迎大家關注~

NLP（十三）中文分詞工具的使用嘗試

繼續閱讀

Elasticsearch7x 叢集搭建，Linux elasticsearch7x 叢集搭建，IK中文分詞器，Linux搭建Kibana使用相關版本資訊下載下傳位址ES搭建-LinuxIK分詞器Kibana 安裝

solr部署tomcat,整合mysql,中文分詞,叢集echo 1 >> myid

Java調用IK分詞器進行分詞，封裝工具類使用場景導入依賴分詞的使用封裝工具類

大資料工具：IKAnalyzer分詞工具介紹與使用簡介IKAnalyzer的引入使用IK的兩個重要詞典IK的使用

Elasticsearch2.1.0安裝中文分詞插件ik1.6

lucene(3)——版本5.X寫中文同義詞分詞器

solr7.2單機版安裝及中文分詞配置

Lucene 5.2.1 + jcseg 1.9.6中文分詞索引(Lucene 學習序列2)Lucene 5.2.1 + jcseg 1.9.6中文分詞索引(Lucene 學習序列2)

各種中文編碼格式在eclipse中的亂碼測試

釋出 IK Analyzer 2012 版本

Lucene Solr 811solrlucenesolr 安裝建立 core中文分詞測試準備 mysql 資料庫資料從 mysql 導入商品資料拼多商城實作商品的全文檢索

文本分析--jieba中文分詞

python自然語言處理（NLP）1------中文分詞1，基于規則的中文分詞方法python中文分詞方法之基于規則的中文分詞

【NLP開發】Python實作中文、英文分詞

【NLP】LTP中文工具集使用

Apache Lucene 5.x 內建中文分詞庫 IKAnalyzer