ACL 2018

解讀:劉兵,東南大學計算機學院博士,研究方向為機器學習、自然語言處理
動機
遠端監督關系抽取方法雖然可以使用知識庫對齊文本的方法得到大量标注資料,但是其中噪聲太多,影響模型的訓練效果。基于 bag 模組化比基于句子模組化能夠減少噪聲的影響,但是仍然無法克服 bag 全部是錯誤标注的情形。
為了換機噪聲标注,本文提出基于對抗神經網絡的方法,嘗試從自動标注資料中清除噪聲。實驗結果表明,本文提出的方法能夠有效去除噪聲,提升遠端監督方法的抽取性能。
方法架構
本文提出的方法包括一個生成器和一個判别器,他們的功能是:
生成器:生成器用于将關于關系 r 的有噪聲的資料 P 劃分成兩組:表示正确标注資料的 TP 和表示錯誤标注資料的 FP。模型會輸出每個句子是正确标注的機率,然後依據該機率抽樣,得到 TP,剩餘的作為 FP。
判别器:評價生成器生成的資料劃分的好壞。評價的方法是:首先使用标注為關系 r 的資料 P 和非 r 的資料 N 對判别器做預訓練。在評價生成器的劃分 TP FP 時,有意颠倒 TP FP 的标簽,即 TP 标記為負例,FP 标記為正例,進而形成錯誤的訓練資料,使用該資料繼續訓練判别器,看看該判别器性能下降情況。判别器性能下降越多,說明颠倒标簽的 TP FP 越錯誤,也就是 TP FP 越正确。
對抗過程是:生成器生成資料劃分之後,判别器通過訓練過程來評價該劃分的好壞,并将結果回報給生成器。生成器根據回報生成更好的資料,進而更大程度地降低判别器的判别能力。
實驗
實驗部分分析了訓練過程中生成器和判别器的收斂情況、以及去噪效果。在去噪效果方面,從下面的 P-R 圖可以看出,在去噪後的資料上訓練得到的模型比在去噪前的資料上訓練的模型效果更好。
解讀:徐康,南京郵電大學講師,研究方向為情感分析、知識圖譜
任務簡介
特定目标的基于側面的情感分析,在原來基于側面的情感分析的基礎上,進一步挖掘細粒度的資訊,分析特定對象的側面級别的情感極性。具體任務的示例如圖 1 所示,給定句子識别該句子描述了哪個目标的哪個側面,并且識别出關于該側面的情感極性。
從圖 2 的示例中,我們可以看出真實的文本描述中,我們可能同時描述多個目标和關于這些目标的多個側面,原來基于側面的情感分析,一般用于評論分析,假定目标實體已經給定,是以該任務隻能識别出側面以及分類該側面的情感,更一般的情況,該任務并不能解決,是以,需要建構新的任務,特定目标的基于側面的情感分析,同時抽取文本的描述的目标、它們對應的側面以及描述這些側面的情感極性。
例如,給定句子“I live in [West London] for years. I like it and itis safe to live in much of [west London]. Except [Brent] maybe.”包含兩個目标 [west London] 和 [Brent]。
我們的目标就是識别目标的側面并且分類這些側面的情感。我們想到的輸出就是:
關于目标 [WestLondon] 的結果 [‘general’:positive;‘safety’:positive]
關于目标 [Brent] 的結果 [‘general’: negative; ‘safety’:negative]
現有方法的不足:
在一個句子中,同一個目标可能包含多個執行個體(同一個目标的不同表述方式,例如,同義詞、簡寫等)或者一個目标對應一個句子中的多個詞語。但是,現有的方法都假設所有的執行個體對于情感分類的重要性是一樣的,簡單地計算所有執行個體的向量的均值。事實上,同一個目标中的個别執行個體對于情感分類的重要性明顯高于其他的執行個體。
現有的層次注意力機制模型将關于給定目标、側面和情感的模組化過度簡化成一種黑盒的神經網絡模型。現有的研究方法都沒有引入外部知識(情感覺識或者常識知識)到深度神經網絡,這些知識可以有助于側面和情感極性的識别。
模型簡述和常識知識
本文提出的神經結構如圖 2 所示,包含兩個子產品:序列編碼器和層次注意力子產品。給定一個句子,首先查閱詞向量表将句子中輸入的詞語全部變成詞向量。
其中序列編碼器基于雙向 LSTM,将詞向量轉換成中間隐含層序列輸出,注意力子產品置于隐含層輸出的頂部,其中比較特殊的是,本結構中加入目标級别的注意力子產品該子產品的輸入不是序列全部的中間隐含層輸出,而是序列中描述目标對象對應的位置的詞語的隐含層輸出(如圖 2 中的紫色子產品),計算這些詞語的自注意向量 Vt。
這裡目标級别的注意力子產品的輸出表示目标,目标的表示結合側面的詞向量用于計算句子級别的注意力表示,将整個句子表示一個向量,這個句子級别的注意力子產品傳回一個關于特定目标和側面的句子向量,然後用這個向量預測這個目标對應的側面的情感極性。
為了提升情感分類的精确度,本文使用常識知識作為知識源嵌入到序列編碼器中。這裡使用 SenticNet 作為常識知識庫,該知識庫包含了 5000 個概念關聯了豐富的情感屬性(如表 1 所示),這些情感屬性不但提供了概念級别的表示,同時提供了側面和它們的情感之間對應的語義關聯。
例如,概念“rottenfish”包含屬性“KindOf-food”可以直接關聯到側面“restaurant”或者“food quality”,同時情感概念“joy”可以支撐情感極性的分類(如圖 4 所示)。
實驗結果
本文主要評估了兩個子任務:
一是側面分類
二是基于側面的情感分類
主要評估兩個測度,精确度、Macro-F1 和 Micro-F1;實驗室的資料集包括 SentiHood 和 Semeval-2015;常識知識庫使用 SenticNet 和使用 AffectiveSpace 作為概念 embedding,如果沒有抽取到概念,那麼使用零向量作為輸入。實驗結果如圖 5 和圖 6 所示。
圖6 Semeval-2015 資料集的性能
WWW' 2018
解讀:鄧淑敏,浙江大學博士生,研究方向為知識圖譜與文本聯合表示學習,動态知識圖譜,時序預測
推薦系統最初是為了解決網際網路資訊過載的問題,幫助使用者針推薦其感興趣的内容并給出個性化的建議。新聞具有高度時效性和話題敏感性的特點,一般而言新聞的熱度不會持續太久,而且使用者關注的話題也多是有針對性的。其次,新聞的語言高度濃縮,往往包含很多常識知識,而目前基于詞彙共現的模型,很難發現這些潛在的知識。是以這篇文章提出了 DKN,将知識表示融合到新聞推薦系統中。
模型
首先看一下 DKN 模型的架構,如下圖所示:
DKN 模型主要分成三部分:
知識抽取(Knowledge Distillation)
知識感覺卷積神經網絡(KCNN: Knowledge-aware CNN)
用于抽取使用者興趣的注意力網絡(Attention Network: Attention-based UserInterest Extraction)
下面對這三部分進行詳細的介紹。
1.知識抽取
知識抽取子產品的輸入是一些使用者點選的新聞标題以及候選新聞的标題。整個過程可以參見下圖。
這樣,根據新聞标題可以得到三部分的資訊,分别是詞,連結實體,以及上下文實體。利用 word2vec 模型可以得到詞的向量表示,利用知識圖譜嵌入模型(這裡用的 TransD)可以得到知識庫實體的向量表示。
其中,連結實體的表示就是 TransD 的訓練結果,如果連結不上就 padding。上下文實體的表示就是對多個實體的表示進行平均,如果前一步沒有連結實體這裡也同樣 padding。由此分别得到了詞、連結實體、上下文實體的向量表示。
2.知識感覺卷積神經網絡
KCNN 在得到新聞标題三方面資訊的向量表示之後,下一步是要将它們放到同一個模型中進行訓練。但是這裡存在的問題是,三者不是通過同一個模型學出來的,直接放到同一個向量空間不合理。這篇文章使用的方法是,先把連結實體、上下文實體的向量表示通過一個非線性變換映射到同一個向量空間:
- 注意力網絡
給定使用者 i 的點選曆史新聞:
通過 KCNN 得到它們的向量表示:
采用一個 DNN 作為注意力網絡和一個 softmax 函數計算歸一化影響力權重:
這樣可以得到使用者 i 關于候選新聞 t_i 的向量表示:
使用者 i 點選新聞 t_j 的機率由另一個 DNN 預測:
資料集 :這篇文章的資料來自 bing 新聞的使用者點選日志,包含使用者 id,新聞 url,新聞标題,點選與否(0未點選,1點選)。搜集了 2016 年 10 月 16 日到 2017 年 7 月 11 号的資料作為訓練集。2017年7月12号到8月11日的資料作為測試集合。使用的知識圖譜資料是 Microsoft Satori。以下是一些統計資料以及分布。
實驗用的評價名額是 AUC 和 F1,對比實驗結果如下表所示。
下面這張表展示了 DKN 本身的一些變量對實驗結果的影響:
筆者認為,DKN 的特點是融合了知識圖譜與深度學習,從語義層面和知識兩個層面對新聞進行表示,而且實體和單詞的對齊機制融合了異構的資訊源,能更好地捕捉新聞之間的隐含關系。利用知識提升深度神經網絡的效果将會是一個不錯的方向。
源碼:
https://github.com/adityaSomak/PSLQA解讀:楊海宏,浙江大學博士,研究方向為知識問答與推理
論文概述
視覺問答(Visual Question Answering)現有兩大類主流的問題, 一是基于圖檔的視覺問答(ImageQuestion Answering),二是基于視訊的視覺問答(Video Question Answering)。而後者在實際處理過程中,常常按固定時間間隔取幀,将視訊離散化成圖檔(frame)的序列,剔除大量備援的資訊,以節省記憶體。
目前視覺問答的研究主要關注以下三個部分:
延續自然語言進行中,對注意力機制(Attention Mechanism)和記憶網絡(Memory Network)的研究,旨在通過改進二者提高模型對文本和圖像資訊的表達能力,通過更豐富的分布式表示來提升模型的精度。另一方面,也可以視作是對神經計算機(Neural Machine)其中鍵值子產品(Key-value,對應注意力)和緩存子產品(Cache,對應記憶網絡)的改進。
密集地研究可解釋性(Interpretability)和視覺推理(Visual Reasoning)。對同領域多源異構資料,這類研究方向将問答視為一種檢索或人機互動方式,希望模型能提供對互動結果(即答案)的來由解釋。
将文本或圖像,以及在圖像中抽取的一系列資訊,如場景圖譜(SceneGraph),圖檔标題(Image Caption)等視為是”知識來源”,在給定一個問題時,如何綜合考慮所有的知識,并推斷出最後的答案。
文章開頭提到的論文,便是朝着第三個方向再邁進一步。
本文提出的主要模型,是一個基于一階謂詞機率軟邏輯(Probabilistic Soft Logic)的顯式推理機。如果你已經訓練好了一個用于視覺問答的神經網絡模型,那麼這個顯式推理機可以根據模型的輸出結果,綜合考慮資訊後,更正原本模型的輸出結果。這樣的後處理能提升模型的精度。下圖就是一個這樣的例子。
圖 1 中紅色六邊形标示的 “PSL Engine”,是顯式推理的核心部分。通過這一個部分,将 “VQA” 的預測結果與” Visual Relation(視覺關系)”,“Question Relation(問題關鍵詞關系)”和”Phrasal Knowledge(語言常識)”三部分資訊綜合起來進行推理,更新答案。此處是一個正向例子。
推理過程具體如下:
生成 VQA 答案:存在一個視覺問答的神經網絡模型,對于這幅圖檔和相應問題,預測出最有可能的答案是:教堂(church)和谷倉(barn)。
生成Visual Relation:通過利用 Dense Captioning system (Johnson, Karpathy, and Fei-Fei 2016) 生成圖檔的文本描述,再用 Stanford Dependency Parsing (De Marneffe et al. 2006) 抽取生成描述中的關鍵詞,再啟發式的方法為關鍵詞對添加上關系,構成三元組。這代表了從圖檔中抽取出有效的結構化資訊.。
生成 Question Relation:再次使用 StanfordDependency Parsing 及啟發式方法抽取問題中包含的三元組資訊。
生成 Phrasal Knowledge:将所有相關關鍵詞在 ConceptNet 和詞向量中索引,并計算相似度。
由機率軟邏輯推理引擎綜合前面四步生成的所有資訊,更新 VQA 答案對應的得分并重新排序,得到新的結果。
在推理過程中,使用了機率軟邏輯來綜合考量各種生成的事實。其核心思想是:由謂詞和變元組成的命題,真值不在局限于 1 或 0(真或假),而是可以在閉區間 [0, 1] 上取值。一個簡單的例子是:
“X 和 Y 是朋友關系且 Y 為 Z 投票,蘊含 X 為 Z 投票”的權重是 0.3。而“X 和 Y 是伴侶關系且 Y 為 Z 投票,蘊含 X 為 Z 投票”的權重是 0.8。回到本文的例子,綜合所有生成的命題并進行推理的過程如下:
在此,命題的權重 w_i 是需要學習的部分。而優化的目标是使得滿足最多條件的正确答案的權重最高。
在資料集 MSCOCO-VQA (Antol et al. 2015) 測試,讓我們看看效果:
WSDM 2018
解讀:李林,東南大學碩士,研究方向為知識圖譜建構及更新
詞語的演化伴随着意思和相關詞彙的改變,是語言演化的副産品。通過學習詞語的演化,能夠推測社會趨勢和人類曆史中不同時期的語言結構,傳統的詞語表示技術并不能夠捕獲語言結構和詞彙資訊。本文提出了動态統計模型,能夠學習到具有時間感覺的詞向量,同時解決了相鄰時間片段中詞向量的“對齊”,實作了用來進行語義發現的動态詞向量模型。
論文貢獻
本文的動态詞向量模型可以看作傳統“靜态”詞向量方法(如:word2vec)的提升。
本文通過在所有時間片段上并行的學習臨時詞向量,實作詞向量的聯合學習,然後通過正則化項平滑詞向量的變化,解決了對準問題。實驗結果表明,本文通過正則化項實作對準的方法優于傳統動态詞向量中分步進行訓練和對準的方法。
本文利用塊坐标下降方法來解決所有時間序列上詞向量聯合學習造成的計算問題。
本文的方法在不同的時間片段中,共享了大多數詞的資訊。這使得本文的方法針對資料稀疏問題,具有健壯性,使得能夠處理一些時間片段中的罕見詞彙。
本文為不同的時間範圍學習到了不同的向量表示,并通過距離的定義,選出和一個詞相似的“鄰居”。為不同的時間周期訓練不同的詞向量,一個關鍵問題,就是不同時間中的詞向量如何對準;通常來說訓練詞向量的 cost function 具有旋轉不變性,這樣在不同時間對同一個詞學習到的向量可能不在相同的潛在空間中,這使得為不同時間片段訓練詞向量時,詞的位置可能變的雜亂無章,無法和上一個時間段的詞向量進行對準。
本文通過對所有時間序列上的詞向量進行聯合學習,避免單獨解決對準問題。具體的,通過在所有時間片段上并行的學習臨時詞向量,然後通過正則化項平滑詞向量的變化,最後利用塊坐标下降方法來解決時間序列上進行詞向量聯合學習的計算問題。
對于靜态詞向量的訓練,本文計算了所有詞彙之間的點互資訊 PMI,把訓練詞向量中求内積的操作看作是點互資訊值,那麼類似于負采樣這種詞向量訓練技巧可以看作點互資訊 PMI 的低秩分解,真實資料往往非常稀疏,存在高效的低秩分解方法。通過在每一個時間片段上進行低秩分解,來為詞向量引入時間參數:
詞向量 U(t) 可以通過分解 PPMI(t,L) 得到,通過最小化連續時間片段中詞向量的 L2 範數來進行對準;整合以上内容,時态詞向量的計算方法通過以下目标函數的最小化來得到:
本文使用的資料是從 New York Times 上抓取的 99872 篇文章。在定性分析中,apple,amazon,obama,trump 的詞義變化軌迹如下所示:
實驗結果中,詞義的變化軌迹通過“鄰居”詞彙的變化給出,能夠清晰的看到語義的演化過程。表明了本文的動态詞向量方法能夠有效的捕獲詞義的演化。
原文釋出時間為:2018-07-21
本文作者:PaperWeekly
本文來自雲栖社群合作夥伴“
資料派THU”,了解相關資訊可以關注“
”