第2章 人類關聯規範能否評估機器制造的關聯清單
本章介紹了由心理語言學實驗建立的單詞關聯規範,與由操作文本語料庫的算法所生成的關聯清單之間的比較。我們比較了Church-Hanks算法生成的清單和LSA算法生成的清單。對于那些自動生成的清單如何反映人類關聯規範中存在的語義依賴關系,本章提出了一種觀點,并指出應該考慮對在關聯清單中觀察到的人類關聯機制進行更深入的分析。
2.1 引言
三十多年來,人們普遍認為,根據從大型文本集合中檢索到的單詞共現(word coocurrence)可以定義單詞的詞彙含義。盡管有一些提議認為從文本[RAP 02,WET 05]中檢索到的單詞共現反映了文本的連續性,但也存在一些提議,他們認為,LSA之類的算法無法區分語料庫無關的語義依賴性(語義原型的元素)共現和基于語料庫相關的事實依賴性共現[WAN 05,WAN 08]。為了證明這一假設,我們将人類關聯清單與通過三種不同算法從文本中檢索的關聯清單進行比較,即Church-Hanks[CHU 90]算法、潛在語義分析(LSA)算法[DEE 90]和潛在狄利克雷配置設定(LDA)算法[BLE 03]。
LSA是一個詞/文檔矩陣秩削減算法,它從文本内提取單詞共現。結果表明,語料庫中的每個單詞都與所有共現單詞及出現的所有文本相關。這為關聯文本比較奠定了基礎。LSA算法的應用性是各類研究的主題,其範圍從文本内容比較[DEE 90]到人類關聯規範分析[ORT 12]。然而,LSA算法對研究機器制造的關聯(machine-made association)的語言意義方面仍然沒有興趣。
很明顯,人類關聯規範和機器制造(machine-created)的關聯清單的比較應該是本研究的基礎。我們可以找到一些基于這一比較的初步研究:[WAN 05,WET 05,WAN 08],其結果表明該問題需要進一步調查。值得注意的是,提到的所有類型的研究都使用了人類關聯拓撲(human association topology)的關聯強度來進行比較。關鍵在于,如果我們比較不同語言關聯規範中特定刺激-響應(stimulus-response)對的關聯強度,我們會發現關聯強度不同。例如,“黃油”是愛丁堡關聯詞庫(EAT)中對激勵“面包”最強的響應(0.54),但在下面描述的波蘭關聯規範中,chleb(面包)- maslo(黃油)的關聯并不是最強的(0.075)。另外,我們可以觀察到關聯強度可能無法區分語義和非語義關聯。例如,屋頂(0.04)、傑克(0.02)和牆(0.01)是EAT中對激勵“房子”的響應。是以,我們決定測試機器制造的關聯清單,來對比不包含關聯強度的人類關聯規範。作為比較,我們使用波蘭語使用者在自由詞關聯實驗[GAT 14]中制定的規範,以下稱為作者的實驗。因為LSA和LDA都使用整個文本來生成單詞關聯,是以我們還測試了人類關聯,對比由Church-Hanks算法生成的關聯清單[CHU 90],該算法在一個類似句子的文本視窗上運作。我們還使用了三種不同的文本語料庫。
2.2 人類語義關聯
2.2.1 單詞關聯測試
在早期,人們注意到人類思維中的詞語是互相聯系的。美國臨床心理學家G. Kent和A.J.Rosanoff[KEN 10]認為,分析單詞之間的聯系具有診斷價值。在1910年,二人創立并進行了一項單詞自由關聯測試。他們在1000名具有不同教育背景和職業的人身上進行了研究,要求他們的研究對象通過激勵詞給出他們腦海中浮現的第一個詞。該研究包括100個激勵詞(主要是名詞和形容詞)。Kent-Rosanoff詞彙表被翻譯成幾種語言,在這些語言中這個實驗被重複進行,是以可以進行比較研究。在[PAL 64]、[POS 70]、[KIS 73]、[MOS 96]、[NEL 98]中繼續進行單詞關聯研究,結果的可重複性允許研究對象的數量減少,然而同時增加了要使用的激勵單詞的數量,如500個孩子和1000個成人研究對象和200個單詞[PAL 64]或100個研究對象和8400個單詞[KIS 73]。在波蘭也開展了關于單詞自由關聯的研究[KUR 67],其結果是下述實驗的基礎。
計算語言學也參與了關于單詞自由關聯的研究,盡管有時這些實驗沒有采用心理學家在進行實驗時使用的苛刻條件。例如,那些允許對單個激勵詞提供幾個響應可能性的實驗[SCH 12]或那些使用單詞對作為激勵的實驗[RAP 08]。
存在一些基于文本語料庫生成關聯清單的算法。然而,自動生成的關聯隻能相當勉強地與心理語言學實驗的結果進行比較。不過這樣的情況正在發生變化;Rapp的結果[RAP 02]真的令人鼓舞。
最後,關聯規範對于不同的任務是有用的,例如資訊提取[BOR 09]或字典擴充[SIN 04,BUD 06]。
2.2.2 作者的實驗
雅蓋隆大學和AGH科技大學大約有900名學生參加了本章所述的自由單詞關聯測試。測試中采用了波蘭語版本的Kent-Rosanoff激勵單詞清單,這個版本以前是由I. Kurcz使用的[KUR 67]。在初步分析之後,我們确定将Kent-Rosanoff清單的每個單詞(在文法上來說是名詞)以及在Kurcz實驗中獲得的每個名詞的五個最常見的單詞關聯[KUR 67]用作激勵詞。如果給定的關聯詞出現在不同的詞上,例如,白色(white)對于醫生(doctor)、奶酪(cheese)和羊(sheep),則這個詞作為激勵在我們的實驗中隻出現一次。在波蘭語版本中,由此産生的激勵清單包含來自Kent-Rosanoff清單的60個單詞,以及代表那些最常出現在Kurcz研究中的那些關聯(響應)的260個單詞。是以,它并不是45年前進行的實驗的精确重複。
我們對實驗條件和分析結果的方法進行了修正。該實驗借助于計算機系統進行,計算機系統是基于該實驗的要求而建立的。該系統呈現一個激勵清單,然後将關聯存儲在資料庫中。每個參與者的計算機螢幕上都顯示了說明,并由實驗人員大聲朗讀。在閱讀說明之後實驗開始,每個參與者的計算機螢幕上出現一個激勵詞,然後他們寫下想到的第一個自由關聯詞—隻能寫一個。一旦參與者寫下他們的關聯詞(或者用完給他寫下關聯詞的時間),螢幕上就會出現下一個激勵詞,直到實驗結束。所有參與者的激勵詞數量及其順序都是相同的。
結果,我們獲得了260個關聯清單,其中包含16?000多個關聯詞。從實驗中得到的關聯清單将用于評估算法生成的關聯清單。
2.2.3 人類關聯拓撲
在本章中,根據詞彙表的排列,比較了來自不同來源的關聯。然而,這并沒有反映出人類關聯的複雜結構。這些可以表示為權重圖,其中節點中有特定的詞,頂點中有關聯。然後可以通過從一個特定激勵(單詞)開始,并在距離該中心激勵一定距離處切斷網絡,将該圖細分為子網。這些子網可以作為一個詞的特定含義的代表。最強的關聯總是與它們是雙向的這一事實相關。但是,如果我們檢視每對連接配接的單詞以找到連接配接的含義,我們會看到連接配接的含義可能不同,例如家庭-母親(home-mother)表示家庭是一個與母親有特别聯系的地方,而不同于家庭-屋頂(home-roof),表示屋頂是建築物的一部分。在分析了所有單詞對之後,我們可以發現它們中的一些以相同的方式連接配接激勵詞,例如,父母(parents)和家庭(family)按照與母親(mother)相同的原則連接配接家庭(home),煙囪(chimney)、牆壁(wall)以及屋頂(roof)是建築物的一部分。這一發現表明,激勵詞的詞義是在一個關聯網絡中組織的子網。我們展示其中兩個來說明這種現象。圖2-1顯示了dom(“home”,作為家庭居住的地方)含義的子網,圖2-2顯示了dom(“home”,作為建築物)含義的子網。

圖2-1中顯示了單詞之間的關系:dom和rodzinny(家庭;形容詞)、stól(桌子)、mama(mum,母親)、matka(mother,母親)、obiad(晚餐)、swieta(假期)、rodzice(父母)和rodzina(家庭)。
圖2-2中顯示了單詞之間的關系:dom和komin(煙囪)、duzy(大的)、budynek(建築)、dach(屋頂)、sciany(牆壁)、chata(茅屋)、wies(村莊)、ogród(花園)、osiedle(地産)和miasto(城市)。
顯然,兩個子網都是手動識别的,很難相信通過使用僅在網絡上運作的算法可以自動提取這些子網[GAT 16]。然後,我們将把特定激勵的所有關聯視為一個清單,忽略關聯的含義。接着,我們可以區分語義上有效的關聯,将波蘭語關聯清單與自由單詞關聯實驗中獲得的英語關聯進行比較。
2.2.4 人類關聯具有可比性
我們将從我們的實驗得出的波蘭語清單與源自愛丁堡關聯詞庫(EAT)的語義等效英語清單進行比較。為了說明這個問題,我們選擇了一個含糊不清的波蘭語單詞dom,它對應英語單詞home和house。這些清單将呈現與其基本激勵相關聯的詞,并根據其關聯強度排序。由于響應的數量不同(home和house為95,dom為540),我們将根據其上發生的詞的等級使用更加定性的相似性度量,而不是直接比較關聯強度。該清單測量LMw(l1, l2),給定兩個單詞清單l1和l2以及一個比較視窗,其将等于從清單的開頭擷取的w個單詞的視窗中與l1和l2比對的單詞的量。
為了建立一些基本的預期相似性水準,我們将比較在我們的實驗中獲得的激勵詞dom的清單,其含義涵蓋了英語單詞home和house。首先,每個波蘭語關聯單詞都被仔細翻譯成英語,然後清單會自動查找相同的單詞,如表2-1所示。由于單詞在比較清單上的排名可能不同,是以表2-2包含了比對兩個清單中的單詞所需的視窗大小。
清單可以分别比較,但考慮到dom的模糊性,我們可以将dom的關聯清單與來源于EAT的home和house清單的散布關聯清單進行比較(即清單的組成為:與home相關的第一個單詞,接着是與house相關的第一個單詞,然後是與home相關的第二個單詞,等等)。
原始清單,即用于比較的人類關聯清單,是按響應頻率排序的與激勵詞相關聯的詞的清單。不幸的是,我們無法通過頻率或計算的關聯強度自動區分與激勵詞産生語義關系的詞,例如,在與單詞table相關聯的清單中,語義上不相關的cloth基本上比legs和leg出現得更頻繁,其與表[PAL 64]産生“部分”關系。其中所描述的觀察與語言無關。所提出的比較方法是從結果清單中語言特定的語義關聯中截斷的,例如,在EAT上最常見的home-house和house-home,以及所有非語義關聯,例如home-office或house-Jack。每個結果清單由在語義上與激勵單詞相關的單詞組成。換句話說,人類關聯清單的比較将自動提取一個語義關聯的子清單。
2.3 算法效率比較
2.3.1 語料庫
為了将關聯清單與LSA清單進行比較,我們準備了三個不同的語料庫來訓練算法。第一個語料庫由波蘭新聞社的51574份新聞稿組成,單詞個數超過290萬。這個語料庫代表了對現實的一個非常寬泛的描述,但在某種程度上可以被視為隻局限于該語言的一個更正式的子集。該語料庫将被稱為PAP。
第二個語料庫是波蘭國家語料庫[PRZ 11]的一個片段,有3363個獨立檔案,單詞個數超過86萬。該語料庫在語言詞典中具有代表性;然而,其中出現的文本是相對随機的,在某種意義上說,它們不是按照主題分組或遵循一些更深層次的語義結構。該語料庫将被稱為NCP。
最後一個語料庫由博勒斯·普魯斯(Boles?aw Prus)的10部短篇小說和一部長篇小說《Lalka》(《玩偶》)組成,博勒斯·普魯斯是19世紀晚期的一位小說家,他用的是現代版本的波蘭語,類似于當今用的版本。這些文本分為10?346段,超過了30萬個單詞。這個語料庫背後的基本原理是嘗試利用如dom這樣的基本概念來模組化一些曆史上根深蒂固的語義關聯。該語料庫将被稱為PRUS。
所有語料庫都是使用基于字典的方法進行詞形還原[KOR 12]。
2.3.2 LSA源關聯清單
潛在語義分析(LSA)是一種經典的工具,通過降維來自動提取文檔間的相似性。術語-文檔矩陣填充有與特定文檔中術語的重要性相對應的權重(在我們的執行個體中為術語-頻率/反文檔頻率),然後通過奇異值分解映射到稱為概念空間的較低維空間。
形式上,次元為n×m(n個術語和m個文檔)的術語-文檔矩陣X可以通過奇異值分解,分解為正交矩陣U和V、對角矩陣Σ:
這又可以通過較小次元空間中X的秩k近似來表示(Σ變為一個k×k矩陣)。我們在實驗中使用了一個任意秩150:
此表示通常用于比較此新空間中的文檔,但由于問題是對稱的,是以可用于比較單詞。次元為n×k的Uk矩陣表示新k維概念空間中的單詞模型。是以,我們可以通過計算每個單詞表示之間的餘弦距離來比較它們的相對相似性。
如上所述,LSA源關聯清單由基于每個樹語料庫建構的模型中給定單詞的有序清單(通過餘弦距離)組成。
潛在語義分析[LAN 08]應用中的關鍵因素是确定k,即用于将資料投影到簡化的k維概念空間的概念的數量。由于該參數是語料庫,并且在某種程度上是特定應用的特征,它已經通過實驗确定。對于每個語料庫(PRUS、NCP和PAP),都已經建立了一個LSA模型,其次元範圍在25~400之間,增量為25。對于每個語料庫,次元都被選為在1000個單詞的視窗中,從10個關聯清單中給出最高比對單詞總數。如3.4節所示,最終結果對應于PRUS和NCP的75維以及PAP的300維。計算是使用gensim主題模組化庫進行的。
2.3.3 LDA源清單
潛在狄利克雷配置設定(Latent Dirichlet Allocation,LDA)是一種用于主題提取的機制[BLE 03]。它把文檔視為單詞或主題的機率分布集。這些主題沒有明确定義,因為它們是根據其中包含的單詞的共現可能性來确定的。
為了獲得與給定單詞wn相關聯的單詞排序清單,我們采用由LDA生成的主題集,然後對于包含的每個單詞,我們将本主題中給定單詞wn的權重乘以每個主題的權重之和。
形式上,對于N個主題,其中wij表示主題j中單詞i的權重,單詞i的權重排名計算如下:
該表示使我們可以根據它們在文檔中共現的機率,建立與給定單詞wn相關聯的單詞排序清單。
2.3.4 基于關聯比率的清單
為了評估相對先進的潛在語義分析機制的品質,我們将其在[CHU 90]中提出的關聯比率的效率與已處理資料的性質有關的一些細微變化進行比較。對于兩個單詞x和y,它們的關聯比率fw(x, y)将被定義為在w個單詞的視窗中y跟随或在x之前的次數。原始關聯比率是不對稱的,它僅考慮參數x之後的單詞y。然而,對于用在句子中沒有嚴格的單詞排序的語言(在我們的例子中是波蘭語)編寫的文本而言,這種方法将會失敗,其中句法資訊是通過豐富的詞形變化而不是通過單詞排序來表示的。對于w,我們将使用與Church和Hanks[CHU 90]中相同的值,即5。與LSA相比,這種方法可以看作是簡單的,雖然如此,如結果所示,它仍然是有用的。
2.3.5 清單比較
首先,我們必須将從三個語料庫中自動獲得的單詞dom(home/hose)的清單與參考清單進行比較,後者即在作者的實驗中從人類對象獲得的人類關聯清單。該比較将用LMw(l1, l2)表示,其中l1是人類關聯清單,l2是通過LSA/LDA相似性獲得的清單,以及如上所述的關聯比率f5。在該比較中,我們将三個不同大小的視窗應用于參考清單。
首先,我們将把151個字長的完整人類關聯清單與上述算法生成的清單進行比較。我們将自動生成的清單的長度任意限制為1000個單詞。如表2-3所示。
這可能看起來比較備援,因為它還包含對我們來說興趣較低的随機關聯—通過EAT獲得的清單和作者的清單的比較僅包含15個單詞。
是以,我們将人類關聯清單限制為僅前75個單詞—這也是從EAT獲得home和house組合清單所需的長度。如表2-4所示。
可以看出,僅當我們使用大的視窗時,自動生成的關聯清單才比對人類關聯清單的某些部分。其次,我們可以觀察到Church-Hanks算法似乎生成了一個與人類派生清單更具可比性的清單。
EAT中較短的單詞清單(house)包含42個單詞。40個單詞是視窗大小,其應用于作者的清單,允許我們找到EAT home/house組合清單和作者的dom實驗清單共有的所有元素。是以,我們将使用40個單詞大小的視窗進行比較。如表2-5所示。
正如我們所看到的,這個視窗大小似乎是最佳的,因為與完整清單相比,它大大減少了兩種算法的非語義關聯。
最後,我們必須測試針對組合的人工關聯清單自動生成的清單,即表2-2中列出的包含在作者清單和EAT清單中的單詞清單。如表2-6所示。
結果顯示出類似于完整人類關聯清單測試期間觀察到的趨勢。首先,視窗大小會影響比對數量。第二個觀察也是類似的:Church-Hanks算法生成的清單可更好地比對人類關聯清單—它在語義上與激勵相關的15個單詞中的10個或12個比對。
為了了解更多資訊,我們重複了對更廣泛詞彙的比較。我們選擇了八個詞:chleb(面包)、choroba(疾病)、swiatlo(光)、glowa(頭)、ksiezyc(月亮)、ptak(胡須)、woda(水)和zolnierz(士兵)。然後,我們使用所描述的方法來獲得作者的實驗和EAT的組合清單。如表2-7所示。
表2-8包含類似的比較,但不會将關聯清單限制為兩個實驗中都包含的單詞。
可以看出,無論人類清單的大小如何,對應于f5算法的列中的值明顯優于相應的LSA值。
2.4 結論
如果檢視結果,我們可能會發現它們通常與Wandmacher[WAN 05]和[WAN 08]的相關研究結果相當。一般而言,LSA和LDA算法都會生成一個關聯清單,該清單僅包含人類關聯規範中存在的詞法關系的一小部分。令人驚訝的是,Church-Hanks算法做得更好,這表明應該更仔細地研究機器制造的關聯如何與人類關聯規範相關聯的問題。第一個建議可能來自[WET 05]—我們必須更多地了解人類關聯規範與文本之間的關系,以尋找比簡單清單比較更合适的方法。我們認為,如果人類詞典編纂者使用Church-Hanks算法從文本中檢索的上下文來選擇那些定義詞義的語境,那麼由三個比較算法生成的關聯清單應該通過能夠評估兩個共現詞的語義相關性的過程來過濾,或者我們将尋找一種新的共現選擇方法。
第二個建議來自對人類關聯清單的分析。衆所周知,這樣一個清單由響應組成,這些響應在語義上與激勵相關,反映了語用依賴性和所謂的“铿锵響應”。但在這組語義相關的響應中,我們可以找到更頻繁的直接關聯,即,例如那些遵循單一語義關系的詞,如“整體-部分”:房屋-牆壁(house-wall),還有不是那麼頻繁的間接關聯,如“羊肉-羊毛”(mutton-wool,baranina-rogi),必須通過一系列語義關系來解釋,在我們的示例“源”關系中,即公羊是羊肉的來源,接着是“整體-部分”關系,即角是公羊的一部分;或者關聯:羊肉-羊毛(mutton-wool,baranina-welna),由“來源”解釋關系,即公羊是羊肉的來源,其次是“整體-部分”關系,fleece是公羊的一部分,其後是“來源”關系,即fleece是wool的來源(wool是處理後的羊毛,fleece是處理前的羊毛—譯者注)。這些關聯連結清單明一些關聯是基于語義網絡的,這可能形成解釋間接關聯的路徑。人類關聯可以形成網絡[KIS 73],并且可以根據關聯網絡測試機器關聯機制,認識到這一點将是非常有趣的。