天天看點

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

目錄

一、介紹

二、應用領域

三、算法步驟

四、詞典排序

五、最優分詞結構

六、參考文獻

一、介紹

TopWORDS [參考文獻1]是發表在PNAS的一種新詞發現算法,它在沒有任何先驗知識的條件下,快速地從大規模中文語料裡學習出一個排序的詞典以及語料文本的分詞結構。

NB:TopWORDS的代碼實作倉庫

二、應用領域

TopWORDS的應用領域包括新詞發現、短文本分析等。新詞發現一直是文本挖掘領域的一個難題,目前的方法主要是分為兩種:

(1)依賴衆包手段收集詞彙,例如百度的搜尋詞和搜狗的拼音輸入;

(2)采用規則方式采集候選詞彙,加以人工篩選,例如Matrix67彙總的一些規則 [參考文獻2]。上述第一種方法需要先天有優勢的大産品才能做,第二種方法效果較差,并且它們都需要大量的人工幹預。TopWORDS天然可以做新詞發現,優點是完全無監督,有理論依據,效果較好。短文本分析是文本挖掘領域的另一個難題,内容簡短、拼寫錯誤、縮寫語多、文法随意等原因為它的分析帶來很多困難。TopWORDS除了可以抽取常用短語外,還可以為短文本分類等任務提供高頻特征。

三、算法步驟

(1)TopWORDS的問題描述如下(不考慮輔助知識)

* 輸入:一個語料集合

* 輸出:一個排序的詞典、輸入語料的分詞結構(與詞典一緻)

(2)TopWORDS采用兩步算法

* 第0步:語料預處理。确定文本片段的粒度,可以是句子、段落、甚至整篇文檔作為一個文本片段,前兩種粒度适合分布式計算,論文采用後兩種。将語料整理為文本片段的集合,清理掉文本片段中的标點符号。

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

(3)EM算法的推導

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

* 第2步:采用EM算法從語料中估計每個詞的實際使機率,下面是有關符号。

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

另外,S和T的關系如下:

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

(4)動态規劃的表示形式

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

四、詞典排序

論文還提出了一種衡量詞使用率的排序标準,比較它出現和不出現情況下語料的機率,作為詞的重要程度。該标準也可以采用動态規劃的方式進行計算,在此不再贅述。

實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻
實在智能RPA學院|切切切詞!算法TopWORDS的原理及實作 一、介紹二、應用領域三、算法步驟四、詞典排序五、最優分詞結構六、參考文獻

五、最優分詞結構

論文提出以兩種政策來确定最優分詞結構:

(1)所有可能的分詞結構中分詞邊界的頻率大于門檻值,且詞典中存在對應的詞;

(2)如果詞典中不存在對應的詞,就采用MLE政策。該政策也可以采用動态規劃的方式進行計算,在此不再贅述。

六、參考文獻

1. Deng K, Bol P K, Li K J, et al. On the unsupervised analysis of domain-specific Chinese texts[J]. Proceedings of the National Academy of Sciences, 2016: 201516510。

2. 顧森 (Matrix67). 基于大規模語料的新詞發現算法. 《程式員》.2012年7月刊。

繼續閱讀