天天看點

結巴分詞标注相容_ICTCLAS2008漢語詞性标注集

計算所漢語詞性标記集

Version 3.0

制訂人:劉群 張華平 張浩

計算所漢語詞性标記集... 1

0. 說明... 1

1. 名詞 (1個一類,7個二類,5個三類) 2

2. 時間詞(1個一類,1個二類) 2

3. 處所詞(1個一類) 3

4. 方位詞(1個一類) 3

5. 動詞(1個一類,9個二類) 3

6. 形容詞(1個一類,4個二類) 3

7. 差別詞(1個一類,2個二類) 3

8. 狀态詞(1個一類) 3

9. 代詞(1個一類,4個二類,6個三類) 3

10. 數詞(1個一類,1個二類) 4

11. 量詞(1個一類,2個二類) 4

12. 副詞(1個一類) 4

13. 介詞(1個一類,2個二類) 4

14. 連詞(1個一類,1個二類) 4

15. 助詞(1個一類,15個二類) 4

16. 歎詞(1個一類) 4

17. 語氣詞(1個一類) 5

18. 拟聲詞(1個一類) 5

19. 字首(1個一類) 5

20. 字尾(1個一類) 5

21. 字元串(1個一類,2個二類) 5

22. 标點符号(1個一類,16個二類) 5

0. 說明

計算所漢語詞性标記集(共計99個,22個一類,66個二類,11個三類)主要用于中國科學院計算技術研究所研制的漢語詞法分析器、句法分析器和漢英機器翻譯系統。本标記集主要參考了以下詞性标記集:

1. 北大《人民日報》語料庫詞性标記集;

2. 北大2002新版詞性标記集(草稿);

3. 清華大學漢語樹庫詞性标記集;

4. 教育部語用所詞性标記集(國家推薦标準草案2002版);

5. 美國賓州大學中文樹庫(ChinesePennTreeBank)詞性标記集;

由于計算所的漢語詞法分析器主要采用北大《人民日報》語料庫進行參數訓練,是以本

詞性标記集主要以北大《人民日報》語料庫的詞性标記集為藍本,并參考了北大《漢語文法資訊詞典》中給出的漢語詞的文法資訊。

本标記集在制定過程中主要考慮了以下幾方面的因素:

1. 有助于提高漢語詞法分析器的切分和标注正确率;

2. 有助于提高漢語句法分析器的正确率;

3. 有助于漢英機器翻譯系統進行翻譯;

4. 易于從北大《人民日報》語料庫詞性标記集進行轉換;

5. 對于文法功能不同的詞,在不造成詞法分析和句法分析歧義區分困難的情況下,盡可能細分子類。

基于以上考慮,我們在标注過程中盡量避免那些容易出錯的詞性标記,而采用那些不容易出錯、而對提高漢語詞法句法分析正确率有明顯作用的标記。例如,在動詞的子類中,我們參考了賓州大學中文樹庫的做法,把漢語動詞“是”和“有”分别做成單獨的标記,而沒有采用“系動詞”的标記。因為同樣是“是”這個動詞,其句法功能很多,作“系動詞”隻是其中一種功能,而要區分這些功能是非常困難的,會導緻詞法分析的正确率下降。

在名詞子類中,我們區分了“漢語人名”、“日語人名”和“翻譯人名”,這不僅僅是因為這三種人名要采用不同的參數進行訓練與識别,而且在漢英機器翻譯中也要采用不同的分析算法進行翻譯。又如,我們把表示時間的“數詞+‘年’”(如“1995年”)合并成一個時間詞,而表示年頭的“數詞+‘年’”分别标注為“數詞”和“量詞”,這是因為我們通過實驗發現這種區分在詞法分析階段通過統計方法可以達到較高的正确率,而且這種區分對于後續的句法分析和機器翻譯有非常重要的作用。

對于某些詞類(助詞和标點符号),基本上是一個封閉集,而這些詞類中各個詞的文法功能相差很大,在這種情況下,我們盡可能地細分其子類。

另外,與其他詞性标記集類似,在我們的标記體系中,小類隻是大類中一些有必要區分的一些特例,但小類的劃分不滿足完備性。

1. 名詞 (1個一類,7個二類,5個三類)

名詞分為以下子類:

n 名詞

nr 人名

nr1 漢語姓氏

nr2 漢語名字

nrj 日語人名

nrf 音譯人名

ns 地名

nsf 音譯地名

nt 機構團體名

nz 其它專名

nl 名詞性慣用語

ng 名詞性語素

2. 時間詞(1個一類,1個二類)

t 時間詞

tg 時間詞性語素

3. 處所詞(1個一類)

s 處所詞

4. 方位詞(1個一類)

f 方位詞

5. 動詞(1個一類,9個二類)

v 動詞

vd 副動詞

vn 名動詞

vshi 動詞“是”

vyou 動詞“有”

vf 趨向動詞

vx 形式動詞

vi 不及物動詞(内動詞)

vl 動詞性慣用語

vg 動詞性語素

6. 形容詞(1個一類,4個二類)

a 形容詞

ad 副形詞

an 名形詞

ag 形容詞性語素

al 形容詞性慣用語

7. 差別詞(1個一類,2個二類)

b 差別詞

bl 差別詞性慣用語

8. 狀态詞(1個一類)

z 狀态詞

9. 代詞(1個一類,4個二類,6個三類)

r 代詞

rr 人稱代詞

rz 訓示代詞

rzt 時間訓示代詞

rzs 處所訓示代詞

rzv 謂詞性訓示代詞

ry 疑問代詞

ryt 時間疑問代詞

rys 處所疑問代詞

ryv 謂詞性疑問代詞

rg 代詞性語素

10. 數詞(1個一類,1個二類)

m 數詞

mq 數量詞

11. 量詞(1個一類,2個二類)

q 量詞

qv 動量詞

qt 時量詞

12. 副詞(1個一類)

d 副詞

13. 介詞(1個一類,2個二類)

p 介詞

pba 介詞“把”

pbei 介詞“被”

14. 連詞(1個一類,1個二類)

c 連詞

cc 并列連詞

15. 助詞(1個一類,15個二類)

u 助詞

uzhe 着

ule 了 喽

uguo 過

ude1 的 底

ude2 地

ude3 得

usuo 所

udeng 等 等等 雲雲

uyy 一樣 一般 似的 般

udh 的話

uls 來講 來說 而言 說來

uzhi 之

ulian 連 (“連國小生都會”)

16. 歎詞(1個一類)

e 歎詞

17. 語氣詞(1個一類)

y 語氣詞(delete yg)

18. 拟聲詞(1個一類)

o 拟聲詞

19. 字首(1個一類)

h 字首

20. 字尾(1個一類)

k 字尾

21. 字元串(1個一類,2個二類)

x 字元串

xx 非語素字

xu 網址URL

22. 标點符号(1個一類,16個二類)

w 标點符号

wkz 左括号,全角:( 〔 [ { 《 【 〖 〈 半角:( [ { <

wky 右括号,全角:) 〕 ] } 》 】 〗 〉 半角: ) ] { >

wyz 左引号,全角:“ ‘ 『

wyy 右引号,全角:” ’ 』

wj 句号,全角:。

ww 問号,全角:? 半角:?

wt 歎号,全角:! 半角:!

wd 逗号,全角:, 半角:,

wf 分号,全角:; 半角: ;

wn 頓号,全角:、

wm 冒号,全角:: 半角: :

ws 省略号,全角:…… …

wp 破折号,全角:—— -- ——- 半角:--- ----

wb 百分号千分号,全角:% ‰ 半角:%

wh 機關符号,全角:¥ $ £ ° ℃ 半角:$

來自:http://www.360doc.cn/article/597197_346584378.html