【論文閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

【閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

AAAI2019《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》Xu and Cai，提出了一種将上下文相關知識融合進卷積神經網絡的短文本分類方法。

1 摘要

現有的一些文本分類方法沒有考慮到上下文相關的知識（比如一個單詞可能有多種含義，但在該語境下的含義并沒有考慮進去。）。本文提出了一種将上下文相關知識融合進卷積神經網絡的短文本分類方法，其中包含兩個子產品：1. 先分别提取概念與文本特征，然後使用attention layer提取與上下文相關的概念；2. 使用CNN從上下文裡提取更高層次的特征。

2 介紹

現在常用的文本分類模型通常是SVM、CNN或者RNN，然而這些模型在資料量稀疏的短文本上效果并不是非常突出。同時，知識庫（KB）的發展為文本帶來了更多的語義，比如說“Lincoln”一詞既可以表示一個車也可以是一個人，然而引入與文本内容無關的語義有時會影響到文本的分類效果。

為解決上述問題，我們提出一種與上下文相關的概念-循環卷積神經網絡（context-relevant concept recurrent convolutional neural network，CCR-CNN），将上下文知識送入一個标準的CNN。其中一個子產品是lower sub-network：用來提取上下文概念資訊的特征表示，另一個upper sub-network：将word embedding和概念特征（context-relevant concept embedding，CCWE）結合，一起送入CNN進行分類。

3 模型

3.1 上下文概念表示子產品

這個子產品用了兩個layer分别擷取概念表示和上下文表示。

概念表示層：在Probase（Wu et al.,2012）中，知識表示為（word，concept）對，即一個詞對應着一個概念。我們用指向同一個概念的所有單詞來表示這個一個概念，換句話說，概念嵌入是單詞嵌入的權重平均值（詞向量學習使用Google的預訓練方法）：

【論文閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

原文：where ejw is the representation of word vjw , which is from the Google’s pre-trained word vectors1 and wjw represents the relevance of the word and the concept, which can be obtained from the Probase.

我的了解是，v是概念w的向量表示，ejw是單詞j在概念w下的表示，w是詞j和概念w相關的權重（為什麼要用一樣的字母……并且w和j表示起來很别扭我也不懂，自認為該循環的應該是w即這個概念所對應的單詞而不是j？……如果了解有誤請大家指出）總之就是與這個概念相關的所有詞的向量去權重平均來表示這個概念。

上下文表示層：對于一個在t時刻輸入的詞xt，我們用一個雙向GRU來獲得它前後向的兩個狀态h→t和h←t，然後将兩者拼接到一起：ht=[h→t，h←t]，可以得到t時刻的一個包含全局資訊的輸入。
上下文相關的概念attention層：我們用A來表示詞word在Probase中所對應的所有概念，其中A隻有一部分的概念與w的上下文相關。是以，我們使用一個attention層來動态地提取這些與上下文相關的概念，然後将這些概念整合起來形成一個上下文相關的概念向量。對于一個詞xt，在attention機制(Luong, Pham, and Manning 2015),中，它的最終概念表示是它top10概念的權重和：

【論文閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》
其中vtj是概念j在詞xt下的向量表示。由此我們的到了詞t的概念資訊表示。（跟上面的符号說明好像有點沖突，但文章沒有更多的解釋，這大概就是短文的弊端吧……）

3.2 上下文相關的概念特征與詞向量相結合的短文本分類子產品

對于t時刻輸入的詞，我們将它的詞向量xt與概念向量ct拼接起來，記作CCWE，一起送入CNN(Kim 2014)，最後使用softmax進行分類。目标函數使用交叉熵損失函數。

4 實驗部分

資料集

TREC，包含了人物、地點等6種問題的資料集；

Movie Review (MR)，包含10662個影評，被分為正面和負面兩類；

AG，包含了新聞的标題和描述，這裡隻用了标題。

結果

【論文閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

總結

一個詞的多種語義對于句長較短的文本分類可能會産生歧義，本文将詞的概念資訊做了抽取，與詞本身的向量表示一同送入CNN去聯合學習短文本的上下文特征，在短文本資料集上有了不錯的效果。

【論文閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

【閱讀筆記】——《Incorporating Context-Relevant Knowledge into CNN for Short Text Classification》

繼續閱讀

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

NLP【03】白話glove原理一、前言二、Glove基本思想

Glove公式推導

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

SVM支援向量機二（Lagrange Duality）SVM支援向量機二（Lagrange Duality）

基于曲線方向（梯度）變化的角點檢測方法

DOG算子

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合