天天看點

PaddleHub預訓練模型LAC完成詞法分析(2.0環境,新版本模型)PaddleHub預訓練模型LAC完成詞法分析

目錄

  • PaddleHub預訓練模型LAC完成詞法分析
    • LAC
    • 一、安裝新版Hub
    • 二、定義待預測資料
    • 三、API預測
    • 四、加載預訓練模型并預測
    • 五、指令行預測示例

PaddleHub預訓練模型LAC完成詞法分析

LAC

Lexical Analysis of Chinese,簡稱 LAC,是一個聯合的詞法分析模型,能整體性地完成中文分詞、詞性标注、專名識别任務。在百度自建資料集上評測,LAC效果:Precision=88.0%,Recall=88.7%,F1-Score=88.4%。該PaddleHub Module支援預測。

NOTE: 如果您在本地運作該項目示例,需要首先安裝PaddleHub。如果您線上運作,需要首先fork該項目示例。之後按照該示例操作即可。

lac

模型連結:https://www.paddlepaddle.org.cn/hubdetail?name=lac&en_category=LexicalAnalysis

環境:PaddlePaddle2.0.0rc PaddleHub2.0.0b1 lac 2.2.0(最新版)

一、安裝新版Hub

!pip install paddlehub==2.0.0b1 -i https://pypi.tuna.tsinghua.edu.cn/simple
           

二、定義待預測資料

以“今天是個好日子”,“今天天氣晴朗”,"下一班地鐵馬上就要到了"為例,展示如何使用LAC進行切詞。

實作效果
['今天', '是', '個', '好日子']

['TIME', 'v', 'q', 'n']

['天氣預報', '說', '今天', '要', '下雨']

['n', 'v', 'TIME', 'v', 'v']

['下', '一班', '地鐵', '馬上', '就要', '到', '了']

['f', 'm', 'n', 'd', 'v', 'v', 'xc']
           

三、API預測

cut(text, use_gpu=False, batch_size=1, return_tag=True)

lac預測接口,預測輸入句子的分詞結果

參數

  • text(str or list): 待預測資料,單句預測資料(str類型)或者批量預測(list,每個元素為str
  • use_gpu(bool): 是否使用GPU預測,如果使用GPU預測,則在預測之前,請設定CUDA_VISIBLE_DEVICES環境變量,否則不用設定
  • batch_size(int): 批處理大小
  • return_tag(bool): 預測結果是否需要傳回分詞标簽結果

傳回

  • results(list): 分詞結果

四、加載預訓練模型并預測

LAC網絡架構為BiGRU+CRF,整體架構圖如下:

PaddleHub預訓練模型LAC完成詞法分析(2.0環境,新版本模型)PaddleHub預訓練模型LAC完成詞法分析

LAC模型架構圖

更多詳情可以參考PaddleHub官網module介紹

import paddlehub as hub

lac = hub.Module(name="lac")
results = lac.cut(text=test_text, use_gpu=False, batch_size=1, return_tag=True)

for result in results:
    print(result['word'])
    print(result['tag'])
           

五、指令行預測示例

!hub run lac --input_text "今天是個好日子"
!hub run lac --input_file test.txt
           

詞性和專名類别标簽集合如下表,其中詞性标簽 24 個(小寫字母),專名類别标簽 4 個(大寫字母)。這裡需要說明的是,人名、地名、機構名和時間四個類别,在上表中存在兩套标簽(PER / LOC / ORG / TIME 和 nr / ns / nt / t),被标注為第二套标簽的詞,是模型判斷為低置信度的人名、地名、機構名和時間詞。開發者可以基于這兩套标簽,在四個類别的準确、召回之間做出自己的權衡。

标簽 含義 标簽 含義 标簽 含義 标簽 含義
n 普通名詞 f 方位名詞 s 處所名詞 t 時間
nr 人名 ns 地名 nt 機構名 nw 作品名
nz 其他專名 v 普通動詞 vd 動副詞 vn 名動詞
a 形容詞 ad 副形詞 an 名形詞 d 副詞
m 數量詞 q 量詞 r 代詞 p 介詞
c 連詞 u 助詞 xc 其他虛詞 w 标點符号
PER 人名 LOC 地名 ORG 機構名 TIME 時間

點我進入項目

繼續閱讀