天天看點

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

點選檢視第一章 點選檢視第二章

第3章 文本詞如何在人類關聯網絡中選擇相關詞

傳統上,研究者對實驗獲得的人類關聯本身進行了分析,但沒有關聯其他語言資料。在極少數情況下,人類關聯被用作評估算法性能的标準,這些算法在文本語料庫的基礎上生成關聯。本章将描述一個機器程式,以研究在實驗建構的人類關聯網絡中,嵌入在文本上下文中的單詞是如何選擇關聯的。實驗中産生的每個關聯都存在一個從激勵到響應的方向。另一方面,每個關聯都基于兩個含義之間的語義關系,這個語義關系具有獨立于關聯方向的自身方向。是以,我們可以将網絡看作有向圖或無向圖。本章中描述的程式使用兩種圖結構來生成語義一緻的子圖。對結果進行比較表明,該程式在兩種圖結構上都運作良好。該程式能夠區分文本中與實驗中用于建立網絡而使用的激勵詞形成直接語義關系的那些詞,還能夠分離文本中與激勵詞形成間接語義關系的那些詞。

3.1 引言

很容易觀察到語義資訊會出現在人類交流中,而不存在于句子的詞彙中。這種現象不會影響人類的了解過程,但是文本處理算法的性能可能會受此影響。比如,我們看以下這段對話:

-阿姨,我有一隻小獵狗(terrier)!

-那很棒,但是你必須照顧好這隻小動物(animal)。

這段對話的兩個句子之間的連接配接表明,在人類的記憶中terrier和animal之間存在聯系。詞彙語義學家可以通過上下義關系的性質來解釋這一現象,上下義關系是傳遞性的:成對地,一隻小獵狗是一隻狗,一隻狗是一隻小動物,表明一隻小獵狗是動物[LYO 63, MUR 03]。我們甚至可以使用WordNet等詞典自動處理這種現象。然而,在很多情況下,我們需要更複雜的推理來解碼在文本中編碼的資訊。我們來舉個例子:The survivor regained his composure as he heard a distant barking.(幸存者聽到遠處的吠叫聲後恢複了鎮靜)。這看起來很明顯,一個以英語為母語的人類讀者可以很容易地解釋幸存者精神狀态變化的原因。例如,這個人可能會說:“一隻狗叫,一隻狗和一個人住得很近(附屬)并且一個人可能會幫助幸存者。”然而我們會發現,在發展的現階段,使用人工建構的語義詞典,如WordNet,甚至FrameNet,是無法做出這種推理的[RUP 10]。

然後,我們發現研究實驗建構的自然詞典的屬性是合理的,自然詞典即由詞和它們之間自然偏好的語義連接配接組成的關聯網絡。有一種可靠的方法來建立這樣的網絡。自由詞關聯測試[KEN 10](其中被測試者用與研究人員提供的激勵詞相關的詞作出回應)将在激勵詞和響應詞之間提供自然偏好的聯系。如果我們在測試的下一階段使用在初始階段獲得的響應作為激勵來執行多相詞關聯測試,我們将建立一個豐富的詞彙網絡,其中單詞與多個連結相連接配接[KIS 73]。

回到我們的例子,我們查找愛丁堡關聯詞庫,這是第一個通過實驗建立的大型詞彙網絡。我們可以在這裡找到35個“狗”的關聯詞,其中包括:

狗—人、吠、鄉村、寵物、槍、項圈、狗鍊、帶領、口哨

我們看到“狗”這個詞直接與“吠”和“人”聯系在一起,這幾個詞與“項圈”“帶領”“狗鍊”“寵物”“槍”同時出現,這是狗-人鄰近關系的屬性。然後,如果我們看看在實驗中建立的波蘭詞彙網絡[GAT 14]中“狗”的關聯詞,我們會發現“狗”這個詞不在激勵詞集中,它隻與響應相關聯,我們可以找到以下關聯:

人、羊、保護者、煙—狗

正如我們在波蘭網絡中看到的那樣,“狗”同樣和“人”存在關聯,而其他與“狗”相關聯的詞表明狗是為人類工作的。

是以,我們可以認為,對自由關聯測試建立的詞彙網絡中的意義連接配接進行研究,将提供資料來解釋文本中的一個詞在詞典中是如何連接配接的,以及這些連接配接如何(如果可能的話)提供文本中詞彙缺失的資訊。在該網絡中觀察到的一些現象可能會加強這種假設。如果我們仔細觀察“狗”的關聯詞,我們可能會發現它們中的大多數是可以直接解釋的,如狗是寵物、狗有項圈或者狗是保護者。然而,這兩個清單中也有需要被證明解釋的關聯—我們稱之為間接關聯。例如,英語網絡中的“狗-槍”關聯可以通過基于直接可解釋的關聯鍊的推理來解釋:狗是人的附屬,人狩獵,人使用槍。我們可以在波蘭語的“狗-煙”關聯中找到類似的情況:狗是人的附屬,人生火,火産生煙霧。一旦我們在網絡中發現了一個間接關聯,比如“狗-槍”,我們就可以在網絡中尋找一條以“狗”作為開始節點,“槍”作為結束節點的路徑。如果找到了這條路徑,我們必須評估該路徑,以确定它是否解釋了“狗”和“槍”的聯系。已經觀察到,如果一個網絡足夠豐富,我們可以識别更遠的關聯和解釋的路徑,如“羊肉-角”,由路徑“羊肉-公羊-羊角”解釋,或者“羊肉-羊毛”關聯,由路徑“羊肉-公羊-羊毛(fleece)-羊毛(wool)”解釋,這在波蘭語網絡中已被人工識别[GAT 13]。

然而,在我們開始尋找網絡中的解釋路徑之前,我們必須開發一個可靠的機器程式,該程式将文本中的一個單詞作為輸入,并且可以在網絡中找到與一個文本的單詞最佳相關的子網絡(子圖),其中最佳是指:在這個子網中每個節點(單詞)語義上與一個文本的單詞相關。本章就描述了這樣一個程式。

将要描述的程式最初被設計為在被視為無向圖的關聯網絡上運作的程式[LUB 15]。然而,該程式所提取的子網語義一緻性的評估非常令人鼓舞,是以我們決定擴充該程式,使其能夠在被視為有向圖的網絡上同時運作。這個擴充很重要,因為它能使程式适應網絡的性質—自由詞關聯實驗中建構的網絡是有向圖;網絡中兩個節點(詞)之間的每個連接配接都有一個方向,總是從激勵詞到響應詞。這種擴充使我們能夠真正評估一個程式。我們将比較它在有向和無向網絡結構上的運作方式。

3.2 網絡

本章中描述的網絡是通過一個自由詞關聯實驗[GAT 14]建立的,其中使用兩組激勵,每組激勵處于實驗的不同階段。在第一階段,來自Kent-Rosanoff清單的62個單詞被作為初級激勵進行測試。在第二階段,對第一階段獲得的每個初級激勵的5個最頻繁的響應被用作激勵。為了減少評估算法輸出所需的人工勞動力,我們使用了一個簡化的網絡,該網絡基于:

  • 波蘭版Kent-Rosanoff清單的43個初級激勵。
  • 126個次級激勵,這是每個初級激勵最常見的三種關聯。

900多名受試者産生的特定激勵的平均關聯數約為150。是以,作為實驗的結果,168個激勵獲得的激勵-響應對的總數等于25?200對。由于算法産生的結果的分析需要人工操作,我們通過排除每個響應頻率等于1的激勵-響應對來減少關聯集。結果,我們獲得了6342對激勵-響應對,其中2169對包含對初級激勵的響應(即初級關聯),4173對包含對次級激勵的響應(即次級關聯)。最終的網絡由3185個節點(單詞)和6155個節點之間的連接配接組成。

實驗建構的關聯網絡可以在圖上描述,其中該圖被定義為元組(V, E),V是節點(頂點)的集合,E是來自V的兩個節點之間的連接配接的集合。兩個節點之間的連接配接可以有一個權重。實驗結果是一個三元組清單:(S, A, C),其中S是激勵,A是關聯,C是參與者的數量(它将A與S關聯起來)。C代表了關聯強度,可以轉換成Cw的連接配接權重,計算如下:Cw = Sc/C,其中Sc是對激勵S給出的所有響應的總和。然後,我們可以将關聯網絡視為一個權重圖,這是一個元組(V, E, w),其中w是為每個連接配接配置設定權重的函數。

由于每個激勵-關聯(響應)對都有一個方向,該方向總是從激勵到響應,是以我們可以将關聯網絡視為有向圖[KIS 73],這意味着兩個節點(v1, v2)之間的每個連接配接都有一個方向,即從v1開始到v2結束—這種連接配接稱為弧。另一方面,如果我們認識到連接配接(v1, v2)是兩個詞的含義之間的語義關系,那麼我們必須認識到激勵-響應方向和兩個含義之間的語義關系方向可能不同。讓我們考慮一下這些關聯:椅子—腿和腿—椅子。在這兩種情況下,相關聯的含義通過相同的語義關系連接配接,即整體-部分關系[MUL 03],同時該語義關系具有從部分(如腿)到整體(椅子)的方向。對于上下義關系,也可以觀察到同樣的現象:從下級“小獵狗”到上級“狗”的語義,關系的方向不取決于關聯“小獵狗-狗”或“狗-小獵狗”的方向。是以,我們可以将關聯網絡視為無向圖,這意味着兩個節點(v1, v2)之間的連接配接沒有方向,即(v1, v2)=(v2, v1)。

圖中的路徑即由邊或弧連接配接的節點序列。路徑長度是路徑中的節點數。路徑權重是路徑中所有連接配接的權重之和。兩個節點(v1, v2)之間的最短路徑是路徑權重小于v1和v2之間直接連接配接的權重的路徑。

3.3 基于文本的激勵驅動的網絡提取

如果網絡和文本都是由單詞建構的結構,那麼我們可能會尋找一種有效的算法,可以在文本中識别實驗中用于建構網絡而使用的激勵單詞,以及适當數量的該激勵的直接關聯。文本中識别的單詞可以作為從網絡中提取子圖的起點,該子圖将包含盡可能多的關聯。傳回的子圖的節點之間的語義關系将成為評估的主題。

更專業地說,該算法應該以圖(關聯網絡)及其在文本中辨別的節點子集(提取節點)作為輸入。然後,該算法建立一個将所有提取節點作為初始節點集的子圖。之後,網絡中存在的提取節點之間的所有連接配接都被添加到結果子圖中—這些連接配接被稱為直接連接配接。最後,在網絡中檢查每個直接連接配接,以确定是否可以用最短路徑替換,其中最短路徑權重低于直接連接配接的權重且節點數小于或等于預定路徑長度。如果找到這樣的路徑,它會被添加到子圖中—這意味着添加該路徑的所有節點和連接配接。如果我們将這個過程應用于大型文本集合的每一個文本,如果我們合并得到的文本子圖,我們可以對為特定激勵詞建立的子圖進行評估。

3.3.1 子圖提取算法

給出路徑i中的源圖G、提取節點EN和最大中間節點數。首先,建立一個空的子圖SG,并将所有提取節點EN添加到節點(頂點)集合Vsg中。在下一組步驟中,将建立EN中節點之間所有節點對的ENP。對于ENP中的每一對,算法檢查配對節點v1、v2之間的連接配接是否存在于G中。如果存在,則該連接配接被添加到子圖SG的連接配接集合Esg中。然後,檢查G中v1和v2之間的最短路徑sp。如果找到了最短路徑sp,即sp權重低于直接連接配接(v1, v2)的權重,并且最短路徑中間節點的數量小于i(length(sp)-2,“-2”是因為開始和結束節點不是中間節點),然後sp路徑通過将它的節點和連接配接添加到适當的集合Vsg和Esg中,而被添加到子圖SG中。最後,傳回子圖SG。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

顯然,算法建立的子圖的大小取決于輸入端給出的提取節點的數量。由于文本中用作提取節點的特定激勵的初級關聯的數量可能不同,是以需要一種對網絡提取算法使用的提取節點數量進行控制的程式。

3.3.2 控制流程

該流程控制提取節點EN的數量和子圖SG的大小。為了用它為給定的激勵建立一個子圖,文本必須包含激勵S和至少dAn個激勵的直接關聯。選擇dAn = 2作為提取算法的起始值,這意味着如果文本的dAn < 2,則文本會被省略。如果文本的dAn≥2,則該文本用于子圖提取。首先,激勵和dAn = 2個初級關聯作為提取節點傳遞給網絡提取算法NEA。然後,計算傳回的子圖中的節點數。在下一步中,dAn增加1,新的一組提取節點被傳遞給NEA。評估傳回的子圖大小,即基于dAn + 1的子圖的節點數乘以子圖大小控制參數Ss,該參數告訴我們在為dAn + 1建立的子圖中必須存在基本子圖的比例,基本子圖即dAn = 2的起始值建立的子圖。例如,Ss = 0.5意味着來自基本子圖的至少一半節點必須保留在dAn遞增後建立的子圖中。如果新建立的子圖與Ss設定的條件不比對,則流程停止,并且在上一步驟中建立的子圖成為特定文本的最終結果。如果新建立的子圖與Ss設定的條件比對,則dAn增加1,并建立一個新的子圖。

3.3.3 最短路徑提取

圖3-1和圖3-2表示實驗網絡的子集,分别被視為有向圖和無向圖。每個圖都由chleb(bread)、maslo(butter)、jedzenie(food)、ser(cheese)、mleko(milk)、dobry(good)、kanapka(sandwich)和zólty(yellow)等節點組成,這些節點通過自由詞關聯實驗産生的連接配接而關聯起來。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

圖3-1表示規範化有向網絡的概念,如果可以找到比直接連接配接兩個節點的路徑更短的路徑。在這種情況下,“更短”意味着路徑連接配接的權重總和小于直接連接配接的權重。在這個特定的例子中,節點之間的虛線連接配接取代了原來的黑色連接配接。這是因為路徑ser→jedzenie→chleb→maslo的權重總和為84,低于節點maslo→ser的直接連接配接權重200。

同樣的推理也适用于由無向權重圖表示的實驗網絡(圖3-2)。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

在無向圖的情況下,我們将其視為節點之間具有對稱連接配接的有向圖,即(v1, v2) = (v2, v1)。從圖3-2中我們可以看到,ser-maslo連接配接被與有向圖相同的路徑ser-jedzenie-chleb-maslo替換,并且找到了ser-maslo連接配接的另一條最短路徑,即路徑maslo-mleko-ser,其路徑權重為198,小于200(即ser-maslo直接連接配接的權重)。

在這兩種情況下,都應用了Dijkstra的經典最短路徑算法。然而,子圖提取算法NEA将拒絕任何不滿足i參數設定的最短路徑。

3.3.4 基于語料庫的子圖

首先,為語料庫中的每個文本建立每個初級激勵的單獨子圖。所有子圖都是用經驗調整的參數[HAR 14]獲得的,例如:對于提取算法,i = 3路徑中的中間節點,以及激勵最小值dAn = 2的直接關聯,控制程式有一個調整參數為Ss = 0.5的子圖。然後,針對特定初級激勵獲得的基于文本的子圖被合并到基于語料庫的初級激勵子圖中,即所有節點集和所有邊集被合并,形成一個多集的并集。最後,修剪了基于語料庫的初級激勵子圖,這意味着從最終子圖中移除了所有未連接配接的節點,并且簡化了激勵和末端節點之間具有兩條以上邊的每個開放路徑(末端節點未連接配接的路徑),以符合網絡形成原理,即激勵(A)産生關聯(B),然後該關聯(B)作為激勵産生關聯(C)。之後,簡化的路徑采用A-B-C的形式。

3.4 網絡提取流程的測試

3.4.1 進行測試的語料庫

為了測試最初的程式,我們使用了三個文體和主題不同的語料庫,即由包含2900000多個單詞的波蘭新聞社的51574篇新聞稿組成的PAP語料庫、由3363個獨立文檔組成的涵蓋860000多個單詞的波蘭國家語料庫的子語庫,以及由著名小說家博勒斯·普魯斯寫的10篇短篇小說和長篇小說《玩偶》組成的文學文本語料庫。這三個語料庫都使用基于詞典的方法[KOR 12]進行了詞性還原。這一流程在這三個語料庫上都表現很好。然後,我們決定在最大的語料庫上進行下面描述的測試,即PAP測試。

3.4.2 提取子圖的評估

為了評估提取的子圖的品質,我們将使用兩個獨立的評估标準:第一,測試子圖的語義一緻性,第二,測試子圖如何比對文本集合。

1.子圖的語義一緻性

為了進行評估,我們要人工評估用于建構網絡的6342個激勵-響應對中的每一對。評估是必要的,因為觀察到自由詞關聯實驗可能産生所謂的铿锵關聯,即聽起來像激勵或與激勵押韻的單詞,如house-mouse,以及習語完成關聯,如white-house,它們形成了一個多部分詞彙機關,是以沒有反映激勵和響應之間的含義關系[CLA 70]。我們擴充了這一觀察,将所有引入專有名稱的關聯,如river-Thames,以及不太頻繁的訓示關聯,如girl-me視為非語義關聯。

評估如下。如果激勵在語義上與響應相關,如dom-sciana(house-wall),則該對被标記為語義的,否則該對被認為是非語義的,如góra-Tatry(mountain-專有名稱)或者dom-mój(house-my)。

然後,按照以下方式沿着路徑連續評估子圖節點。如果兩個連接配接的節點比對标記為語義的激勵-響應對,那麼右邊的節點标記為語義的(Sn)。如果兩個連接配接的節點比對非語義激勵-響應對,那麼右邊的節點被标記為非語義的(nSn)。如果兩個連接配接的節點不比對任何激勵-響應對,除了原則上是語義節點的激勵節點,那麼兩個節點都被标記為nSn。在評估路徑的最後一對之後,評估路徑的起始節點(激勵)和結束節點的連接配接,以檢查路徑的語義一緻性。是以,非語義節點nSn被認為是與起始節點(激勵)沒有語義關系的任何末端節點(關聯),即使它與前一個節點有語義關系,如路徑krzeslo-stól-szwedzki(椅子-桌子-瑞典),其中成對的krzeslo-stól和stól-szwedzki形成語義關系,但是激勵krzeslo(“椅子”)與關聯szwedzki(“瑞典”)不形成語義關系。

2.比對子圖和文本集合

為了評估提取的子圖與文本集合的關系,我們必須将包含特定激勵的每個文本與為此激勵提取的子圖進行比對。然後,我們必須計算文本和子圖SnT中識别的網絡節點(單詞)數。之後,我們必須以文本為背景,将整個直接關聯集與網絡中出現的特定激勵比對起來。這樣做是為了識别網絡中存在但被算法拒絕的網絡節點(單詞),是以這些節點不存在于子圖TnS中。

3.4.3 有向和無向子圖提取:對比

現在,我們可以呈現每個初級激勵的結果,其中每個初級激勵詞的子圖都被評估過。為了比較針對每個激勵提取的有向和無向子圖,我們将使用子圖評估過程中獲得的所有資料,即:

  • Sn:算法建立的子圖中的節點數;
  • nSn:通過子圖評估識别的子圖中非語義節點的數量;
  • SnT:文本和子圖中識别的網絡節點(單詞)數量;
  • TnS:文本中存在但被算法拒絕的網絡節點(單詞)數量,是以不存在于子圖中。

在我們開始評估每個激勵之前,我們必須展示43個激勵的聯合評估結果。為了做此分析,我們必須确定網絡中的節點總數—Nn。表3-1顯示了基于PAP語料庫的所有子圖的聯合結果。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

如果我們觀察表3-1,比較網絡節點Nn的數量以及SnT(在文本中檢索的網絡節點,以提取子圖)和TnS(存在于文本中但被算法拒絕的網絡節點)的總和,我們可以發現網絡中存在的節點(單詞)隻有一小部分出現在大的文本集合中—無向網絡比率為0.234,有向網絡為0.267。這個分數明顯低于子圖節點Sn與網絡節點Nn的比率:對于無向網絡,該比率為0.281;對于有向網絡,該比率為0.275。可以說,這些數字顯示了語言詞典(網絡)和使用詞典制作文本之間的關系。nSn值(子圖中的非語義節點)顯示,子圖中的非語義節點在無向網絡和有向網絡中僅占總子圖節點的0.072。這個結果顯示了經驗建構的關聯網絡的語義一緻性,以及本章描述的建構子圖的謹慎方法的品質。

最後,Sn、SnT和TnS的大小差異可能反映了有向圖結構和無向圖結構之間的差異,這對使用文本中的單詞來提取子圖産生了影響。稍後我們将提供詳細的分析。

3.4.4 每個激勵産生的結果

如果我們觀察每個特定初級激勵獲得的結果,就可能對結果進行更詳細的評估。這些結果顯示在表3-2中。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞
帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

聯合評估表明,在無向網絡上運作的程式會産生稍大的子圖。然而,如果我們看一下圖3-3中每個激勵的差異(圖3-3比較了有向網絡和無向網絡的子圖大小),我們可能會發現任何差異似乎都依賴于激勵。圖3-3顯示,兩個網絡的Sn大小同時增加,隻有dziecko“child”(+24)、reka“hand”(+23)、dom“home/house”(+16)、choroba“illness”(+11)、zolnierz“soldier”(-11)、woda“water”(-20)和mezczyzna“man”(-28)的Sn可能反映了網絡結構的差異。我們必須補充的是,列出的單詞并不具有實質性的語義特征。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

比較子圖大小後,我們可以分析子圖中的負節點nSn。這可以在圖3-4中看到,圖3-4顯示了每個激勵的nSn-Sn比;激勵按子圖大小排序。我們可以看到,從無向網絡中提取的43個子圖中隻有17個子圖不包含非語義節點;而對于有向網絡,隻有13個子圖。有趣的是,隻有5個激勵詞,即baranina“mutton”、ksiezyc“moon”、lampa“lamp”、ser“cheese”和zolnierz“soldier”在這兩個網絡結構中共享這一屬性。nSn/Sn比值的差異似乎與網絡結構有關。

乍看之下,我們可以說SnT和TnS的激勵狀态對于有向網絡和無向網絡來說似乎相似。SnT(在文本中檢索到的子圖節點)大小的差異可以在表3-2中觀察到,這似乎是随機的和依賴于語料庫的。例如,激勵詞dywan(carpet)隻出現在7個文本中,其中隻有兩個足夠豐富,可以提供提取節點(激勵詞和兩個直接關聯)。使用SnT單詞來建立子圖可能取決于有向或無向網絡結構;然而,沒有單獨的研究,我們無法證明這一點。

最後,我們必須分析TnS,即網絡和文本中都存在但子圖中不存在的關聯,因為算法拒絕了它們。首先,我們可以觀察到,在有向網絡上運作的算法拒絕了更多的文本出現節點,這可能與有向網絡較少的子圖節點相關。第二個觀察結果是,對于有向和無向網絡,隻有10個激勵具有被拒絕的文本出現節點。看一下這些被拒絕的網絡節點似乎是合理的。表3-3顯示了所有10種激勵被拒絕節點的完整清單。為了節省空間,我們将隻使用被拒絕節點的英文翻譯。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞
帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

當檢視在兩個網絡上運作的算法所拒絕的節點時,我們發現所有單詞都在語義上與一個激勵相關,對于其中的大部分,我們可以直接解釋激勵和關聯之間的聯系。例如,對于無向網絡,king“制定/執行”了一個法則(law),king“擁有”一個王國(kingdom),王權(scepter)是king的“屬性”。然而,其中一些被拒絕的節點(标有星号)與激勵沒有直接聯系,如綿羊(sheep)-角(horns)、水(water)-沙漠(desert),但我們可以通過一系列直接聯系來解釋它們,即綿羊-公羊-角和水-渴-搜尋-沙漠。也就是說,所有标有星号的單詞與激勵的關聯方式與間接關聯方式相同。是以,我們可以說本章描述的方法可能有助于識别網絡中存在的間接關聯。先人工檢查被算法拒絕的節點的短清單,然後再人工檢查整個網絡要容易得多。一旦間接關聯被識别,我們可能會很容易地建構一個自動程式來尋找解釋這些間接關聯的路徑。

3.5 對結果和相關工作的簡要讨論

我們所提出的文本驅動的關聯網絡提取方法對圖的操作簡單而且謹慎。由激勵詞如在文本中出現次數很少的pajak“spider”、lampa“lamp”和dywan“carpet”,提取的子圖的品質似乎證明了提取算法并不依賴于用于網絡提取的文本數量。如果這是真的,則該算法可以用作基于單個文本提取關聯網絡的可靠工具,單個文本可以提供資料來研究在文本中檢索的特定直接關聯如何影響子圖的大小和内容。也就是說,如果文本用直接關聯krzeslo“chair”代替直接關聯ulica“street”,我們可以觀察lamp的子圖(圖3-5)會如何變化,直接關聯krzeslo“chair”有自己的子圖,如圖3-6所示。

lampa的子圖包括由文本ulica“street”、zarówka“light bulb”、swiatlo“light”提供的直接連接配接的節點和算法增加的zarówka-swiatlo連接配接。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

krzeslo的子圖包括直接連接配接的節點:文本提供的stól(table)、dom(home)、stary(old),文本添加的obiad(dinner)、rodzinny(family)和算法添加的obiad(dinner)、rodzinny(family)。

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

對單個文本的研究似乎是合理的,因為人類讀者隻了解文本,而不是文本集合。将使用我們的方法一字一字地提取的文本圖與僅基于文本集合建構的文本圖(例如,[LOP 07, WU 11, AGG 13])進行比較是很有趣的。這應該是進一步調查的主題。

在子圖提取過程中對算法拒絕的單詞的分析表明,文本驅動的網絡提取過程可以作為一種工具來提供資料,進而定位大型網絡中的間接關聯。這是一項非常難以手動完成的任務。識别了間接關聯後,我們可能會自動搜尋網絡以找到解釋這些間接關聯的所有路徑。這些解釋路徑可能會給克拉克[CLA 70]分析的人類關聯機制的研究帶來新的資料。

然而,如果我們從模拟人類推理的計算機程式的角度來看一個關聯網絡,我們會發現,實驗獲得的兩個單詞之間的聯系并不能提供關于這種聯系的含義的明确資訊。然而,看起來很清楚的是,在本章引言的例子中,隻有類似狗與人的關系的明确資訊可以作為幸存者心理狀态推理的基礎。這意味着我們必須對詞與詞之間的聯系進行分類,以使網絡可用于計算機程式進行類似于人類的推理。我們将不讨論可能的分類方法(例如[DED 08,GAT 15]),但我們必須強調,正确的分類必須認識到詞彙網絡中兩個節點之間的連接配接反映了網絡中構成特定類型,如狗、花或特定的集合,如furniture、water結構[SOW 00]的特征。

最後,我們必須認識到為什麼實驗建構的關聯網絡與從文本集合中自動建構的網絡不完全比對。自從Rapp[RAP 02]的一項有影響力的研究以來,一個實驗建構的關聯網絡成為評估由不同統計算法産生的關聯的标準,這些算法僅在文本集合上運作(例如,[WAN 08, GAT 13, UHR 13])。文本生成的關聯反映了文本連續性[WET 05]。然而,需要補充的是,與文本衍生的關聯相反,自由詞關聯實驗獲得的關聯代表了定義詞彙意義的特征。如果比較在波蘭報紙文本集上運作的Wortschatz算法的結果[BIE 07],我們可以發現單詞dom(home/house)與許多不同的動詞相關聯,如kupic(buy)、uderzyc(hit)、wybudowac(build)、splonac(burn)、stoi(standing)、wjechal(struck)、zniszczyc(destroy)和miec(possess),這些可能與許多不同的對象相關聯。同時,在文中描述的實驗網絡中,dom與單個動詞mieszkac(to dwell)相關聯,并且這個特殊的動詞特指dom,因為“to dwell”定義了對象的目的地和名為dom的位置。

3.6 參考文獻

帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞
帶你讀《自然語言處理的認知方法》之三:文本詞如何在人類關聯網絡中選擇相關詞第3章 文本詞如何在人類關聯網絡中選擇相關詞

繼續閱讀