天天看點

序列标注簡介1. 序列标注2. 标簽3. 序列标注模型基本任務及其的差別:4. 常見序列标注模型

1. 序列标注

序列标注:簡單的來說序列标注就是:給定一個序列,對序列中的每一個元素做一個标記,或者說給每一個元素打一個标簽。一般來說,一個序列指的是一個句子,而一個元素指的是句子中的一個詞。

2. 标簽

标簽清單如下:

  • B,即Begin,表示開始
  • I,即Intermediate,表示中間
  • E,即End,表示結尾
  • S,即Single,表示單個字元
  • O,即Other,表示其他,用于标記無關字元

常見标簽方案

基于上面的标簽清單,通過選擇該清單的子集,可以得到不同的标簽方案。同樣的标簽清單,不同的使用方法,也可以得到不同的标簽方案。

常用的較為流行的标簽方案有如下幾種:

  • IOB1: 标簽I用于文本塊中的字元,标簽O用于文本塊之外的字元。标簽B用于在該文本塊前面接着一個同類型的文本塊情況下的第一個字元。
  • IOB2: 每個文本塊都以标簽B開始,除此之外,跟IOB1一樣。
  • IOE1: 标簽I用于獨立文本塊中,标簽E僅用于同類型文本塊連續的情況,假如有兩個同類型的文本塊,那麼标簽E會被打在第一個文本塊的最後一個字元。
  • IOE2: 每個文本塊都以标簽E結尾,無論該文本塊有多少個字元,除此之外,跟IOE1一樣。
  • START/END (也叫SBEIO、IOBES): 包含了全部的5種标簽,使用S标簽表示文本塊由單個字元組成;由一個以上的字元組成時,首字元總是使用B标簽,尾字元總是使用E标簽,中間的字元使用I标簽。
  • IO: 隻使用I和O标簽,顯然,如果文本中有連續的同種類型實體的文本塊,使用該标簽方案不能夠區分這種情況。
  • 其中最常用的是IOB2、IOBS、IOBES。

3. 序列标注模型基本任務及其的差別:

1. 命名實體識别

給定一個詞的序列,找出最可能的标簽序列(内外符号:[I]表示詞屬于命名實體,[O]表示不屬于命名實體)。

比如我們希望識别一句話裡面的人名(PER),地名(LOC),組織機構名(ORG),即命名實體識别的過程。

舉例說明:

  • 琪斯美是日本的“東方project”系列彈幕遊戲及其衍生作品的登場角色之一。

為每個字做标注之後的結果就是:

  • 琪(B-PER)斯(I-PER)美(E-PER)是(O)日(B-LOC)本(E-LOC)的(O)“(O)東(B-ORG)方(I-ORG)project(E-ORG)”(O)系(O)列(O)彈(O)幕(O)遊(O)戲(O)及(O)其(O)衍(O)生(O)作(O)品(O)的(O)登(O)場(O)角(O)色(O)之(O)一(O)。(O)*

這裡标注采用的是BIEO,即Begin, Intermediate, End, Other

  • 琪(B-PER)斯(I-PER)美(E-PER) 表示的含義就是 “琪”是人名開始,“斯”是人名中間的字,“美”是人名的末尾的字。其它符号同理。

實際上就是用一串符号來标注出你感興趣的部分,在上面的例子中是對文本序列的實體感興趣,是以對實體打上标簽,其他任務中會對針對任務的不同打上不同的标簽。

2. 分詞

給定一個字的序列,找出最可能的标簽序列(标簽是斷句符号:[詞尾]或[非詞尾]構成的序列)。結巴分詞目前就是利用BMES标簽來分詞的,B(開頭),M(中間),E(結尾),S(獨立成詞)

舉例說明:

  • 琪斯美是日本的“東方project”系列彈幕遊戲及其衍生作品的登場角色之一。
  • 琪斯美 是 日本 的 “ 東方project ” 系列 彈幕 遊戲 及 其 衍生 作品 的 登場 角色 之一。
  • 琪(B)斯(I)美 (E)是(S) 日(B)本(E) 的(S) “(S) 東(B)方(I)project(E) ”(S) 系(B)列(E) 彈(B)幕(E) 遊(B)戲(E) 及(S) 其(S) 衍(B)生(E) 作(B)品(E) 的(S) 登(B)場(E) 角(B)色(E) 之(B)一(E)。(S)

3. 詞性标注:給定一個詞的序列(句子),找出最可能的标簽序列(标簽是詞性)。如ANSJ分詞和ICTCLAS分詞等。

漢語詞性對照表

代碼 名稱 說明 舉例
a 形容詞 取英語形容詞adjective的第1個字母 最/d 大/a 的/u
ad 副形詞 直接作狀語的形容詞.形容詞代碼a和副詞代碼d并在一起 一定/d 能夠/v 順利/ad 實作/v 。/w
ag 形語素 形容詞性語素。形容詞代碼為a,語素代碼g前面置以a 喜/v 煞/ag 人/n
an 名形詞 具有名詞功能的形容詞。形容詞代碼a和名詞代碼n并在一起 人民/n 的/u 根本/a 利益/n 和/c 國家/n 的/u 安穩/an 。/w
b 差別詞 取漢字“别”的聲母 副/b 書記/n 王/nr 思齊/nr
c 連詞 取英語連詞conjunction的第1個字母 全軍/n 和/c 武警/n 先進/a 典型/n 代表/n
d 副詞 取adverb的第2個字母,因其第1個字母已用于形容詞 兩側/f 台柱/n 上/ 分别/d 雄踞/v 着/u
dg 副語素 副詞性語素。副詞代碼為d,語素代碼g前面置以d 用/v 不/d 甚/dg 流利/a 的/u 中文/nz 主持/v 節目/n 。/w
e 歎詞 取英語歎詞exclamation的第1個字母 嗬/e !/w
f 方位詞 取漢字“方” 的聲母 從/p 一/m 大/a 堆/q 檔案/n 中/f 發現/v 了/u
g 語素 絕大多數語素都能作為合成詞的“詞根”,取漢字“根”的聲母 例如dg 或ag
h 前接成分 取英語head的第1個字母 目前/t 各種/r 非/h 合作制/n 的/u 農産品/n
i 成語 取英語成語idiom的第1個字母 提高/v 農民/n 讨價還價/i 的/u 能力/n 。/w
j 簡稱略語 取漢字“簡”的聲母 民主/ad 選舉/v 村委會/j 的/u 工作/vn
k 後接成分 權責/n 明确/a 的/u 逐級/d 授權/v 制/k
l 習用語 習用語尚未成為成語,有點“臨時性”,取“臨”的聲母 是/v 建立/v 社會主義/n 市場經濟/n 體制/n 的/u 重要/a 組成部分/l 。/w
m 數詞 取英語numeral的第3個字母,n,u已有他用 科學技術/n 是/v 第一/m 生産力/n
n 名詞 取英語名詞noun的第1個字母 希望/v 雙方/n 在/p 市政/n 規劃/vn
ng 名語素 名詞性語素。名詞代碼為n,語素代碼g前面置以n 就此/d 分析/v 時/Ng 認為/v
nr 人名 名詞代碼n和“人(ren)”的聲母并在一起 建設部/nt 部長/n 侯/nr 捷/nr
ns 地名 名詞代碼n和處所詞代碼s并在一起 北京/ns 經濟/n 運作/vn 态勢/n 喜人/a
nt 機構團體 “團”的聲母為t,名詞代碼n和t并在一起 [冶金/n 工業部/n 洛陽/ns 耐火材料/l 研究院/n]nt
nx 字母專名 ATM/nx 交換機/n
nz 其他專名 “專”的聲母的第1個字母為z,名詞代碼n和z并在一起 德士古/nz 公司/n
o 拟聲詞 取英語拟聲詞onomatopoeia的第1個字母 汩汩/o 地/u 流/v 出來/v
p 介詞 取英語介詞prepositional的第1個字母 往/p 基層/n 跑/v 。/w
q 量詞 取英語quantity的第1個字母 不止/v 一/m 次/q 地/u 聽到/v ,/w
r 代詞 取英語代詞pronoun的第2個字母,因p已用于介詞 有些/r 部門/n
s 處所詞 取英語space的第1個字母 移居/v 海外/s 。/w
t 時間詞 取英語time的第1個字母 目前/t 經濟/n 社會/n 情況/n
tg 時語素 時間詞性語素。時間詞代碼為t,在語素的代碼g前面置以t 秋/Tg 冬/tg 連/d 旱/a
u 助詞 取英語助詞auxiliary 的第2個字母,因a已用于形容詞 工作/vn 的/u 政策/n
ud 結構助詞 有/v 心/n 栽/v 得/ud 梧桐樹/n
ug 時态助詞 你/r 想/v 過/ug 沒有/v
uj 結構助詞的 邁向/v 充滿/v 希望/n 的/uj 新/a 世紀/n
ul 時态助詞了 完成/v 了/ ul
uv 結構助詞地 滿懷信心/l 地/uv 開創/v 新/a 的/u 業績/n
uz 時态助詞着 眼看/v 着/uz
v 動詞 舉行/v 老/a 幹部/n 迎春/vn 團拜會/n
vd 副動詞 強調/vd 指出/v
vg 動語素 動詞性語素。動詞代碼為v。在語素的代碼g前面置以V 做好/v 尊/vg 幹/j 愛/v 兵/n 工作/vn
vn 名動詞 指具有名詞功能的動詞。動詞和名詞的代碼并在一起 股份制/n 這種/r 企業/n 組織/vn 形式/n ,/w
w 标點符号 生産/v 的/u 5G/nx 、/w 8G/nx 型/k 瓦斯/n 熱水器/n
x 非語素字 非語素字隻是一個符号,字母x通常用于代表未知數、符号
y 語氣詞 取漢字“語”的聲母 已經/d 30/m 多/m 年/q 了/y 。/w
z 狀态詞 取漢字“狀”的聲母的前一個字母 勢頭/n 依然/z 強勁/a ;/w

4. 常見序列标注模型

  • 最大熵模型(The maximum Entropy Principle)
  • 條件随機場模型(Conditional Random Field,CRF模型)
  • 隐馬爾可夫模型(Hidden Markov Model, HMM)

繼續閱讀