1. 序列标注
序列标注:簡單的來說序列标注就是:給定一個序列,對序列中的每一個元素做一個标記,或者說給每一個元素打一個标簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。
2. 标簽
标簽清單如下:
- B,即Begin,表示開始
- I,即Intermediate,表示中間
- E,即End,表示結尾
- S,即Single,表示單個字元
- O,即Other,表示其他,用于标記無關字元
常見标簽方案
基于上面的标簽清單,通過選擇該清單的子集,可以得到不同的标簽方案。同樣的标簽清單,不同的使用方法,也可以得到不同的标簽方案。
常用的較為流行的标簽方案有如下幾種:
- IOB1: 标簽I用于文本塊中的字元,标簽O用于文本塊之外的字元。标簽B用于在該文本塊前面接着一個同類型的文本塊情況下的第一個字元。
- IOB2: 每個文本塊都以标簽B開始,除此之外,跟IOB1一樣。
- IOE1: 标簽I用于獨立文本塊中,标簽E僅用于同類型文本塊連續的情況,假如有兩個同類型的文本塊,那麼标簽E會被打在第一個文本塊的最後一個字元。
- IOE2: 每個文本塊都以标簽E結尾,無論該文本塊有多少個字元,除此之外,跟IOE1一樣。
- START/END (也叫SBEIO、IOBES): 包含了全部的5種标簽,使用S标簽表示文本塊由單個字元組成;由一個以上的字元組成時,首字元總是使用B标簽,尾字元總是使用E标簽,中間的字元使用I标簽。
- IO: 隻使用I和O标簽,顯然,如果文本中有連續的同種類型實體的文本塊,使用該标簽方案不能夠區分這種情況。
- 其中最常用的是IOB2、IOBS、IOBES。
3. 序列标注模型基本任務及其的差別:
1. 命名實體識别
給定一個詞的序列,找出最可能的标簽序列(内外符号:[I]表示詞屬于命名實體,[O]表示不屬于命名實體)。
比如我們希望識别一句話裡面的人名(PER),地名(LOC),組織機構名(ORG),即命名實體識别的過程。
舉例說明:
- 琪斯美是日本的“東方project”系列彈幕遊戲及其衍生作品的登場角色之一。
為每個字做标注之後的結果就是:
- 琪(B-PER)斯(I-PER)美(E-PER)是(O)日(B-LOC)本(E-LOC)的(O)“(O)東(B-ORG)方(I-ORG)project(E-ORG)”(O)系(O)列(O)彈(O)幕(O)遊(O)戲(O)及(O)其(O)衍(O)生(O)作(O)品(O)的(O)登(O)場(O)角(O)色(O)之(O)一(O)。(O)*
這裡标注采用的是BIEO,即Begin, Intermediate, End, Other
- 琪(B-PER)斯(I-PER)美(E-PER) 表示的含義就是 “琪”是人名開始,“斯”是人名中間的字,“美”是人名的末尾的字。其它符号同理。
實際上就是用一串符号來标注出你感興趣的部分,在上面的例子中是對文本序列的實體感興趣,是以對實體打上标簽,其他任務中會對針對任務的不同打上不同的标簽。
2. 分詞
給定一個字的序列,找出最可能的标簽序列(标簽是斷句符号:[詞尾]或[非詞尾]構成的序列)。結巴分詞目前就是利用BMES标簽來分詞的,B(開頭),M(中間),E(結尾),S(獨立成詞)
舉例說明:
- 琪斯美是日本的“東方project”系列彈幕遊戲及其衍生作品的登場角色之一。
- 琪斯美 是 日本 的 “ 東方project ” 系列 彈幕 遊戲 及 其 衍生 作品 的 登場 角色 之一。
- 琪(B)斯(I)美 (E)是(S) 日(B)本(E) 的(S) “(S) 東(B)方(I)project(E) ”(S) 系(B)列(E) 彈(B)幕(E) 遊(B)戲(E) 及(S) 其(S) 衍(B)生(E) 作(B)品(E) 的(S) 登(B)場(E) 角(B)色(E) 之(B)一(E)。(S)
3. 詞性标注:給定一個詞的序列(句子),找出最可能的标簽序列(标簽是詞性)。如ANSJ分詞和ICTCLAS分詞等。
漢語詞性對照表
代碼 | 名稱 | 說明 | 舉例 |
---|---|---|---|
a | 形容詞 | 取英語形容詞adjective的第1個字母 | 最/d 大/a 的/u |
ad | 副形詞 | 直接作狀語的形容詞.形容詞代碼a和副詞代碼d并在一起 | 一定/d 能夠/v 順利/ad 實作/v 。/w |
ag | 形語素 | 形容詞性語素。形容詞代碼為a,語素代碼g前面置以a | 喜/v 煞/ag 人/n |
an | 名形詞 | 具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起 | 人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩/an 。/w |
b | 差別詞 | 取漢字“别”的聲母 | 副/b 書記/n 王/nr 思齊/nr |
c | 連詞 | 取英語連詞conjunction的第1個字母 | 全軍/n 和/c 武警/n 先進/a 典型/n 代表/n |
d | 副詞 | 取adverb的第2個字母,因其第1個字母已用于形容詞 | 兩側/f 台柱/n 上/ 分别/d 雄踞/v 着/u |
dg | 副語素 | 副詞性語素。副詞代碼為d,語素代碼g前面置以d | 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節目/n 。/w |
e | 歎詞 | 取英語歎詞exclamation的第1個字母 | 嗬/e !/w |
f | 方位詞 | 取漢字“方” 的聲母 | 從/p 一/m 大/a 堆/q 檔案/n 中/f 發現/v 了/u |
g | 語素 | 絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母 | 例如dg 或ag |
h | 前接成分 | 取英語head的第1個字母 | 目前/t 各種/r 非/h 合作制/n 的/u 農産品/n |
i | 成語 | 取英語成語idiom的第1個字母 | 提高/v 農民/n 讨價還價/i 的/u 能力/n 。/w |
j | 簡稱略語 | 取漢字“簡”的聲母 | 民主/ad 選舉/v 村委會/j 的/u 工作/vn |
k | 後接成分 | 權責/n 明确/a 的/u 逐級/d 授權/v 制/k | |
l | 習用語 | 習用語尚未成為成語,有點“臨時性”,取“臨”的聲母 | 是/v 建立/v 社會主義/n 市場經濟/n 體制/n 的/u 重要/a 組成部分/l 。/w |
m | 數詞 | 取英語numeral的第3個字母,n,u已有他用 | 科學技術/n 是/v 第一/m 生産力/n |
n | 名詞 | 取英語名詞noun的第1個字母 | 希望/v 雙方/n 在/p 市政/n 規劃/vn |
ng | 名語素 | 名詞性語素。名詞代碼為n,語素代碼g前面置以n | 就此/d 分析/v 時/Ng 認為/v |
nr | 人名 | 名詞代碼n和“人(ren)”的聲母并在一起 | 建設部/nt 部長/n 侯/nr 捷/nr |
ns | 地名 | 名詞代碼n和處所詞代碼s并在一起 | 北京/ns 經濟/n 運作/vn 态勢/n 喜人/a |
nt | 機構團體 | “團”的聲母為t,名詞代碼n和t并在一起 | [冶金/n 工業部/n 洛陽/ns 耐火材料/l 研究院/n]nt |
nx | 字母專名 | ATM/nx 交換機/n | |
nz | 其他專名 | “專”的聲母的第1個字母為z,名詞代碼n和z并在一起 | 德士古/nz 公司/n |
o | 拟聲詞 | 取英語拟聲詞onomatopoeia的第1個字母 | 汩汩/o 地/u 流/v 出來/v |
p | 介詞 | 取英語介詞prepositional的第1個字母 | 往/p 基層/n 跑/v 。/w |
q | 量詞 | 取英語quantity的第1個字母 | 不止/v 一/m 次/q 地/u 聽到/v ,/w |
r | 代詞 | 取英語代詞pronoun的第2個字母,因p已用于介詞 | 有些/r 部門/n |
s | 處所詞 | 取英語space的第1個字母 | 移居/v 海外/s 。/w |
t | 時間詞 | 取英語time的第1個字母 | 目前/t 經濟/n 社會/n 情況/n |
tg | 時語素 | 時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以t | 秋/Tg 冬/tg 連/d 旱/a |
u | 助詞 | 取英語助詞auxiliary 的第2個字母,因a已用于形容詞 | 工作/vn 的/u 政策/n |
ud | 結構助詞 | 有/v 心/n 栽/v 得/ud 梧桐樹/n | |
ug | 時态助詞 | 你/r 想/v 過/ug 沒有/v | |
uj | 結構助詞的 | 邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n | |
ul | 時态助詞了 | 完成/v 了/ ul | |
uv | 結構助詞地 | 滿懷信心/l 地/uv 開創/v 新/a 的/u 業績/n | |
uz | 時态助詞着 | 眼看/v 着/uz | |
v | 動詞 | 舉行/v 老/a 幹部/n 迎春/vn 團拜會/n | |
vd | 副動詞 | 強調/vd 指出/v | |
vg | 動語素 | 動詞性語素。動詞代碼為v。在語素的代碼g前面置以V | 做好/v 尊/vg 幹/j 愛/v 兵/n 工作/vn |
vn | 名動詞 | 指具有名詞功能的動詞。動詞和名詞的代碼并在一起 | 股份制/n 這種/r 企業/n 組織/vn 形式/n ,/w |
w | 标點符号 | 生産/v 的/u 5G/nx 、/w 8G/nx 型/k 瓦斯/n 熱水器/n | |
x | 非語素字 | 非語素字隻是一個符号,字母x通常用于代表未知數、符号 | |
y | 語氣詞 | 取漢字“語”的聲母 | 已經/d 30/m 多/m 年/q 了/y 。/w |
z | 狀态詞 | 取漢字“狀”的聲母的前一個字母 | 勢頭/n 依然/z 強勁/a ;/w |
4. 常見序列标注模型
- 最大熵模型(The maximum Entropy Principle)
- 條件随機場模型(Conditional Random Field,CRF模型)
- 隐馬爾可夫模型(Hidden Markov Model, HMM)