天天看點

從頻率到意義:語義向量空間模型(2)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻譯:華南師範大學-吳玺煜

1.1向量空間模型的動機

       VSMs有好幾個吸引人的特性。VSMs從給出的語料庫裡自動抽取知識,是以它們比其他語義的方法需要更少的勞動力,比如手工編輯知識庫(knowledge bases)和本體論(譯者注:這個說法有失公允,知識庫和本體論都有自動抽取的方法)。例如,用于計算英語國家語料庫(BNC)的詞彙相似性的VSM系統(Rapp,2003)的主要來源,對比用于用于計算詞典(比如WordNet或者Roget's Thesaurus)的詞彙相似性的非VSM系統(Hirst & St-Onge,,1998; Leacock & Chodrow, 1998; Jarmasz & Szpakowicz,2003)。收集新語言的語料庫比建立一個詞典更加簡單,建立一個詞典也經常涉及到收集一個語料庫,比如SemCor之于WordNet (Miller, Leacock, Tengi, & Bunker, 1993)。

       VSMs在很多領域都表現良好,包括:測量詞彙、詞組和文章之間的語義相似性。大量搜尋引擎使用VSMs去測量查詢和文檔的相似性(Manning et al., 2008)。測量語義相關性(semantic relatedness)的主要算法用的是VSMs(Pantel & Lin, 2002a; Rapp, 2003; Turney, Littman, Bigham, & Shnayder, 2003)。測量語義關系(semantic relations)的主要算法用的也是VSMs(Lin & Pantel, 2001; Turney, 2006; Nakov & Hearst, 2008)。(2.4節談論3種類型相似性的不同)

       我們對VSMs的興趣在于它們和分布假設(distributional hypothesis)、相關假設(distributional hypothesis)之間存在暧昧的關系(見2.7節)。分布假設意思是一個詞彙出現在相似的上下文裡,傾向于擁有相似的意思(Wittgenstein, 1953; Harris, 1954; Weaver, 1955; Firth, 1957; Deerwester, Dumais, Landauer, Furnas, & Harshman, 1990)(譯者注:維特根斯坦在《哲學研究》裡說過,一個詞的意義就是它的用法)。将這個抽象的假設應用到測量意義的相似性時,往往會産生向量、矩陣和高階張量。VSMs和分布假設之間親密的關系是我們研究VSMs的強烈動機。

       不是所有使用向量和矩陣的算法都能算作向量空間模型。為了我們這次研究,我們把以下内容定義為VSMs的一個屬性:在一個VSM裡的元素值,必須來源于事件的頻率,比如說在給定的文本裡某一詞彙出現的次數(見2.6節)。舉個例子,一個詞典或者說一個知識庫,往往被看作是一個圖,然後這個圖很可能被表示成一個鄰接矩陣的形式,但這不能說明一個詞典是一個VSM,因為,一般而言,鄰接矩陣的值不是來源于事件的頻率。特意強調事件頻率,讓多樣的VSM統一起來,并明确将VSM和分布假設聯系在一起;而且,這排除了其他用矩陣表示的算法的麻煩事。

1.2在AI和認知科學裡的向量

       向量經常用于AI和認知科學;它們比向量空間模型還要早Salton et al. (1975)。VSM的新奇之處在于使用語料庫文本的頻率作為發現語義資訊的線索。

       在機器學習裡,一個典型的問題是對已經表征成特征向量(feature vectors) (Mitchell, 1997; Witten & Frank, 2005)的項集(a set of items)進行分類或者聚類。一般來說,這些特征不是來源于事件頻率,盡管它們是機率(見4.6節)。舉個例子,一個機器學習算法可以用于分類或者聚類文檔(Sebastiani, 2002)

協同過濾和推薦系統也使用了向量(Resnick, Iacovou, Suchak, Bergstrom, & Riedl, 1994; Breese, Heckerman, & Kadie, 1998; Linden, Smith, & York, 2003)。在一個典型的推薦系統裡,我們有一個人-項(person-item)矩陣,行相當于人(顧客,消費者),列相當于項(産品,賣家),值是人給項的評價(不好,合理,太好)。許多用于項-文檔矩陣(見第4章)很好的數學工具,也可以用于人-項矩陣,盡管評價不是來源于事件頻率。

       在認知科學裡,原型理論經常使用了向量。原型理論主要思想是類的某些成員比其他成員更中心(Rosch & Lloyd, 1978; Lakoff, 1987)。例如,robin是鳥類(分類級别)的中心成員(原型的),相比于企鵝是外圍的。概念有不同的類别程度(分類級别)。順理成章,一種把它們形式化的想法就是将概念表示成向量和類是向量的集合(Nosofsky, 1986; Smith, Osherson, Rips, & Keane, 1988)。然而,這些向量是基于數值分數,通過詢問人類受試者獲得的分數;它們不是基于事件頻率。

       在其他領域,心理學使用大量的向量用于心理測量,研究心理能力和特征(psychological abilities and traits)的測量方法。通常的實驗手段是測試或者問卷,比如說人格測試(personality test)。測試的結果往往被表示成一個對象-項(subject-item)矩陣,行被表示成實驗對象(人),列被表示成測試(問卷)裡的項(問題)。矩陣的值是相關對象對于相關項的答案(answer)。很多用于向量分析的技術都是從心理測量學裡提出來的,比如因子分析(Spearman, 1904)。

       在認知科學,潛在語義分析(LSA)(Deerwester et al., 1990; Landauer & Dumais, 1997),語言的多元空間類比(HAL)(Lund, Burgess, & Atchley, 1995; Lund & Burgess, 1996),還有一些最近的研究(Landauer, McNamara, Dennis, & Kintsch, 2007)可以完全歸進VSMs的範圍裡,正如上面的定義,因為這些研究使用了向量空間模型,值是來源于事件頻率,比如說在給定的文本裡某個詞彙出現的次數。認知科學家認為從經驗和理論上,都可以相信VSMs,比如LSA和HAL,是人類認知某部分的合理模組化(Landauer et al., 2007)。雖然在AI,計算語言學和資訊檢索,這種合理性不是必要的,但顯示了VSMs是一個未來可以研究的方向。

繼續閱讀