【NLP】LTP中文工具集使用

學習總結

上次的NLTK是英文工具集，LTP則是中文工具集。同樣能用于詞法分析（分詞、詞性标注、命名實體識别）、句法分析（依存句法分析）和語義分析（語義角色标注和語義依存分析）等。

文章目錄

學習總結
一、中文分詞
二、分句和詞性标注
三、命名實體識别任務
四、依存句法分析
五、語義依存分析

5.1 樹
5.2 圖

Reference

一、中文分詞

中文詞語之間不像英語一樣，沒有空格進行分割，NLP一般以詞為最小處理機關，需要對中文分詞處理。

# -*- coding: utf-8 -*-
"""
Created on Fri Nov 26 22:06:23 2021

@author: 86493
"""
from ltp import LTP
# 預設加載small模型，首次使用時會自動下載下傳并加載模型
ltp = LTP()

# 對句子進行分詞，結果使用segment通路
# hidden用于通路每個詞的隐含層向量，用于後續分析步驟 
segment, hidden = ltp.seg(["南京市長江大橋。"])

# LTP能夠獲得正确的分詞結果，如不會分詞為：南京，市長
print(segment)

LTP能夠獲得正确的分詞結果，如不會分詞為：南京，市長，結果為：

[['南京市', '長江大橋', '。']]

二、分句和詞性标注

分詞：

# 分詞
segment, hidden = ltp.seg(sentences)
print(segment)

# [['南京市', '長江大橋', '。'], ['湯姆', '生病', '了', '。'], 
# ['他', '去', '了', '醫院', '。']]

詞性标注：

# 詞性标注 
pos_tags = ltp.pos(hidden)
print(pos_tags)

# [['ns', 'ns', 'wp'], ['nh', 'v', 'u', 'wp'], 
# ['r', 'v', 'u', 'n', 'wp']]

三、命名實體識别任務

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫湯姆去拿外衣。"])
ner = ltp.ner(hidden)
# [['他', '叫', '湯姆', '去', '拿', '外衣', '。']]
# [[('Nh', 2, 2)]]

tag, start, end = ner[0][0]
print(tag,":", "".join(seg[0][start:end + 1]))
# Nh : 湯姆

四、依存句法分析

注意：在依存句法當中，虛節點ROOT占據了0位置，是以節點的下标從1開始。

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫湯姆去拿外衣。"])
dep = ltp.dep(hidden)
print(dep)

結果：

# [['他', '叫', '湯姆', '去', '拿', '外衣', '。']]
# [
#     [
#         (1, 2, 'SBV'),
#         (2, 0, 'HED'),    # 叫 --|HED|--> ROOT
#         (3, 2, 'DBL'),
#         (4, 2, 'VOB'),
#         (5, 4, 'COO'),
#         (6, 5, 'VOB'),
#         (7, 2, 'WP')
#     ]
# ]

（1）上面結果的第1、2行為例：

(1, 2, 'SBV')

，

(2, 0, 'HED')

，依存句法樹會有預設的虛拟root節點，其索引為0，分詞後的索引是從1開始的：

他	叫	湯姆	去	拿	外衣
1	2	3	4	5	6

（2）第二行的

(2, 0, 'HED')

第二列為0，代表索引為2的結點（叫）的父節點是索引為0的虛拟root節點。

（3）第一行的

(1, 2, 'SBV')

的

SBV

是表示兩個節點的依存關系是主謂關系，即“叫”和“他”是主謂關系。

五、語義依存分析

5.1 樹

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫湯姆去拿外衣。"])
sdp = ltp.sdp(hidden, mode='tree')

# [['他', '叫', '湯姆', '去', '拿', '外衣', '。']]
# [
#     [
#         (1, 2, 'Agt'),
#         (2, 0, 'Root'),   # 叫 --|Root|--> ROOT
#         (3, 2, 'Datv'),
#         (4, 2, 'eEfft'),
#         (5, 4, 'eEfft'),
#         (6, 5, 'Pat'),
#         (7, 2, 'mPunc')
#     ]
# ]

5.2 圖

from ltp import LTP

ltp = LTP()

seg, hidden = ltp.seg(["他叫湯姆去拿外衣。"])
sdp = ltp.sdp(hidden, mode='graph')

# [['他', '叫', '湯姆', '去', '拿', '外衣', '。']]
# [
#     [
#         (1, 2, 'Agt'),
#         (2, 0, 'Root'),   # 叫 --|Root|--> ROOT
#         (3, 2, 'Datv'),
#         (3, 4, 'Agt'),
#         (3, 5, 'Agt'),
#         (4, 2, 'eEfft'),
#         (5, 4, 'eEfft'),
#         (6, 5, 'Pat'),
#         (7, 2, 'mPunc')
#     ]
# ]

【NLP】LTP中文工具集使用

學習總結

文章目錄

一、中文分詞

二、分句和詞性标注

三、命名實體識别任務

四、依存句法分析

五、語義依存分析

5.1 樹

5.2 圖

Reference

繼續閱讀

文本分類之 residual-connection+selfAttention的詞向量平均模型

新聞文本分類-06 基于Bert的文本分類

seq2seq模型 + Attention機制

elasticlunr.js 最新版本v0.6.7釋出啦應用示例為什麼你需要elasticlunr.js?

RNN/LSTM學習資料總結

使用中文維基百科進行GloVe實驗

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

更别緻的詞向量模型(一)：simpler glove

glove_python安裝（避免編譯錯誤）

python 分析qq聊天記錄

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

ELMO BERT GPT

BERT、Elmo、GPT一、發展曆史二、bert三、ERNIE四、GPT—transformer的decoder

人工智能如何有效地運用于自然語言處理