目錄
- PaddleHub預訓練模型LAC完成詞法分析
-
- LAC
- 一、安裝新版Hub
- 二、定義待預測資料
- 三、API預測
- 四、加載預訓練模型并預測
- 五、指令行預測示例
PaddleHub預訓練模型LAC完成詞法分析
LAC
Lexical Analysis of Chinese,簡稱 LAC,是一個聯合的詞法分析模型,能整體性地完成中文分詞、詞性标注、專名識别任務。在百度自建資料集上評測,LAC效果:Precision=88.0%,Recall=88.7%,F1-Score=88.4%。該PaddleHub Module支援預測。
NOTE: 如果您在本地運作該項目示例,需要首先安裝PaddleHub。如果您線上運作,需要首先fork該項目示例。之後按照該示例操作即可。
lac
模型連結:https://www.paddlepaddle.org.cn/hubdetail?name=lac&en_category=LexicalAnalysis
環境:PaddlePaddle2.0.0rc PaddleHub2.0.0b1 lac 2.2.0(最新版)
一、安裝新版Hub
!pip install paddlehub==2.0.0b1 -i https://pypi.tuna.tsinghua.edu.cn/simple
二、定義待預測資料
以“今天是個好日子”,“今天天氣晴朗”,"下一班地鐵馬上就要到了"為例,展示如何使用LAC進行切詞。
實作效果
['今天', '是', '個', '好日子']
['TIME', 'v', 'q', 'n']
['天氣預報', '說', '今天', '要', '下雨']
['n', 'v', 'TIME', 'v', 'v']
['下', '一班', '地鐵', '馬上', '就要', '到', '了']
['f', 'm', 'n', 'd', 'v', 'v', 'xc']
三、API預測
cut(text, use_gpu=False, batch_size=1, return_tag=True)
lac預測接口,預測輸入句子的分詞結果
參數
- text(str or list): 待預測資料,單句預測資料(str類型)或者批量預測(list,每個元素為str
- use_gpu(bool): 是否使用GPU預測,如果使用GPU預測,則在預測之前,請設定CUDA_VISIBLE_DEVICES環境變量,否則不用設定
- batch_size(int): 批處理大小
- return_tag(bool): 預測結果是否需要傳回分詞标簽結果
傳回
- results(list): 分詞結果
四、加載預訓練模型并預測
LAC網絡架構為BiGRU+CRF,整體架構圖如下:
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIn5GcusmcvdHdl52XjFGbvw1ZtlWLiVHalxGZkFGcvwlY1hWZsRGZhB3Lc12bj5ycvJWZjJmLqJ2Lc9CX6MHc0RHaiojIsJye.png)
LAC模型架構圖
更多詳情可以參考PaddleHub官網module介紹
import paddlehub as hub
lac = hub.Module(name="lac")
results = lac.cut(text=test_text, use_gpu=False, batch_size=1, return_tag=True)
for result in results:
print(result['word'])
print(result['tag'])
五、指令行預測示例
!hub run lac --input_text "今天是個好日子"
!hub run lac --input_file test.txt
詞性和專名類别标簽集合如下表,其中詞性标簽 24 個(小寫字母),專名類别标簽 4 個(大寫字母)。這裡需要說明的是,人名、地名、機構名和時間四個類别,在上表中存在兩套标簽(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注為第二套标簽的詞,是模型判斷為低置信度的人名、地名、機構名和時間詞。開發者可以基于這兩套标簽,在四個類别的準确、召回之間做出自己的權衡。
标簽 | 含義 | 标簽 | 含義 | 标簽 | 含義 | 标簽 | 含義 |
---|---|---|---|---|---|---|---|
n | 普通名詞 | f | 方位名詞 | s | 處所名詞 | t | 時間 |
nr | 人名 | ns | 地名 | nt | 機構名 | nw | 作品名 |
nz | 其他專名 | v | 普通動詞 | vd | 動副詞 | vn | 名動詞 |
a | 形容詞 | ad | 副形詞 | an | 名形詞 | d | 副詞 |
m | 數量詞 | q | 量詞 | r | 代詞 | p | 介詞 |
c | 連詞 | u | 助詞 | xc | 其他虛詞 | w | 标點符号 |
PER | 人名 | LOC | 地名 | ORG | 機構名 | TIME | 時間 |
點我進入項目