這是閱讀的一篇複旦大學實驗室的英文論文,論文主要做的工作是使用異構圖為模型提取單文檔、多文檔的摘要,論文原文點這裡
論文背景
提取文檔摘要是指從原始文檔中提取相關的句子,并将其重新組織為摘要。提取文檔摘要的一個關鍵步驟是學習跨句子關系,實作提取文章摘要的一種直覺方法是将它們放在基于圖形的神經網絡中,該網絡有一個更複雜的捕捉句子間關系的結構。目前現有的模型主要遵循編碼器-解碼器架構,比如說CNN、LSTM、Transformer等,但是現在這些RNNs模型難以捕捉遠端語句之間的依賴關系,尤其是在長文檔、多文檔之中。為了解決上述的問題,該論文提出了使用一種基于異構圖的神經網絡提取文檔摘要,它包含除句子之外不同粒度級别的語義節點。其中異構圖是指可以有多種結點和邊的圖。
實作思想及整體方法
本片論文解決上述問題的關鍵在于如何構造這樣的一種異構圖可以反映遠端語句之間的關系,其實作思路為:不是像傳統僅僅在句子節點上建構圖,而是引入更多的語義單元作為圖中的額外節點來豐富句子之間的關系。這些附加的節點充當連接配接句子的中介角色,即每個附加的節點都可以被視為一個特殊的關系用于關聯它們的句子。這樣的話就可以根據這些關系賦予每一個語句一個權重,根據權重來進行選擇哪些句子用于構成文章的摘要。比較簡單的一種實作方法是使用單詞作為語義單元,每一個句子都與它所包含的單詞相連,所有的句子和句子之間以及單詞和單詞之間都沒有直接的邊,該篇論文也是基于該方法。對于多文檔的摘要提取,傳統的方法是将多個文檔直接串接形成一個長文檔用于識别,該論文的實作方法是改變模型,在原有的單詞節點和語句節點之外,建立立文檔節點,構成有三種節點的異構圖進行處理,除了圖模型上的不同,其餘處理方法相似。
由于對多文檔的處理除了改變圖模型之外,其餘的處理方式和對單文檔的處理類似。是以接下來主要講解如何對單文檔提取摘要的。
其整體的實作方法分為三步:異構圖的初始化、建構異構圖的層、句子選擇。異構圖的初始化是指對異構圖中單詞節點、句子節點、邊特征進行初始化,該工作是指将文檔中的單詞、語句等提取出來放入到特征矩陣中。建構異構圖的層工作包括兩步:從單詞到語句的更新和從語句到單詞的更新,其更新方法是對單詞節點和語句節點設定權重值,如果一個單詞節點和多個語句節點相連,該單詞節點具有更高的權重值,同樣一個語句節點和多個單詞節點相連,該語句節點具有更高的權重值,該工作是所有工作的核心部分,其更新是通過疊代實作的,由于不斷地對權重值進行更新,使得提取摘要的準确度更高。最後一步工作是句子選擇,該工作是指将前兩部工作處理得到的資料進行選取,選取出相應權值最高的語句組成該文檔的摘要,其主要方法是對語句節點進行分類,也就是根據語句相應的權值進行排序,并且丢棄重複出現的語句,選取出排名靠前的語句組成摘要。
實驗驗證和結論
為了驗證上述方法的正确性,作者進行了實驗驗證,其單文檔的資料集有:CNN/DailyMail和NYT50,多文檔資料集為Multi-News,用于驗證上述方法對單文檔和多文檔提取文章摘要确實是比傳統的方法準确度高,但是這裡是存在一個疑惑的,雖然這種方法确實是證明比傳統的模型準确度高,但是這種準确度的衡量标準是語句的一個衡量值,但是語句組合一塊可能會有互相的幹擾,雖然說在語句選取工作中進行了丢棄重複語句的操作,但是選取的語句仍然可能存在沖突,這種沖突可能會造成提取的摘要不是最優的。
除了驗證對單文檔和多文檔的準确度之外,論文作者還進行了驗證疊代更新的重要性,如果不對語句節點進行更新,其準确度會有一定的下降。
由上述的實驗驗證可知,使用異構圖以及在圖中引入更細粒度的語義單元——單詞節點确實是有助于在句子之間建立更複雜的關系模型,該模型對文檔中的語句以及單詞确實有更高的準确率,而且證明了對于多文檔提取摘要,在模型中加入文檔節點相對于直接将多文檔合并為長文檔進行處理具有更高的準确率。
個人感悟和總結
該論文所完成的工作是在單文檔以及多文檔中提取抽取式摘要,為了解決傳統模型難以捕捉遠端語句之間的依賴關系的問題提出了使用異構圖模型,建立文檔節點-語句節點-單詞節點(也可以擴充為文檔節點-段落節點-語句節點-單詞節點)的圖模型,相對于傳統的模型,通過引入更小的粒度(單詞節點)使得模型在句子之間建立更複雜的關系,使得獲得更高的準确度。
閱讀完本篇論文,個人認為該論文提到的方法中最重要的思想是疊代,這也是該模型有用的原因,通過引入單詞節點,可以判斷一個單詞是否出現了多次,如果一個單詞出現了多次,就可以進行回報,對語句節點的權重值進行更新,使得有更好的處理結果,這是在傳統的序列模型中難以實作的。
存在的疑惑
閱讀完本篇論文,有以下兩點疑惑:
- 之前提到的,這種方法确實是證明比傳統的模型準确度高,但是這種準确度的衡量标準是語句的一個衡量值,但是語句組合一塊可能會有互相的幹擾,雖然說在語句選取工作中進行了丢棄重複語句的操作,但是選取的語句仍然可能存在沖突,這種沖突可能會造成提取的摘要不是最優的。個人認為可以先進行預處理,得到一些摘要集,使得最優的摘要一定在該摘要集中,将摘要集中的摘要建構為摘要節點,然後再進行處理,最終選出最優的摘要。
- 相對于傳統的模型,該方法構造的模型加入了單詞節點,模型的複雜度有了非常大的提升,在訓練模型時是否會耗時非常大。