從頻率到意義：語義向量空間模型（2）（From Frequency to Meaning: Vector Space Models of Semantics）

作者：Peter D. Turney、Patrick Pantel

翻譯：華南師範大學-吳玺煜

1.1向量空間模型的動機

VSMs有好幾個吸引人的特性。VSMs從給出的語料庫裡自動抽取知識，是以它們比其他語義的方法需要更少的勞動力，比如手工編輯知識庫（knowledge bases）和本體論（譯者注：這個說法有失公允，知識庫和本體論都有自動抽取的方法）。例如，用于計算英語國家語料庫（BNC）的詞彙相似性的VSM系統（Rapp，2003）的主要來源，對比用于用于計算詞典（比如WordNet或者Roget's Thesaurus）的詞彙相似性的非VSM系統（Hirst & St-Onge,，1998； Leacock & Chodrow, 1998； Jarmasz & Szpakowicz，2003)。收集新語言的語料庫比建立一個詞典更加簡單，建立一個詞典也經常涉及到收集一個語料庫，比如SemCor之于WordNet （Miller, Leacock, Tengi, & Bunker, 1993）。

VSMs在很多領域都表現良好，包括：測量詞彙、詞組和文章之間的語義相似性。大量搜尋引擎使用VSMs去測量查詢和文檔的相似性（Manning et al., 2008）。測量語義相關性（semantic relatedness）的主要算法用的是VSMs（Pantel & Lin, 2002a; Rapp, 2003; Turney, Littman, Bigham, & Shnayder, 2003）。測量語義關系（semantic relations）的主要算法用的也是VSMs（Lin & Pantel, 2001; Turney, 2006; Nakov & Hearst, 2008）。（2.4節談論3種類型相似性的不同）

我們對VSMs的興趣在于它們和分布假設（distributional hypothesis）、相關假設（distributional hypothesis）之間存在暧昧的關系（見2.7節）。分布假設意思是一個詞彙出現在相似的上下文裡，傾向于擁有相似的意思（Wittgenstein, 1953; Harris, 1954; Weaver, 1955; Firth, 1957; Deerwester, Dumais, Landauer, Furnas, & Harshman, 1990）（譯者注：維特根斯坦在《哲學研究》裡說過，一個詞的意義就是它的用法）。将這個抽象的假設應用到測量意義的相似性時，往往會産生向量、矩陣和高階張量。VSMs和分布假設之間親密的關系是我們研究VSMs的強烈動機。

不是所有使用向量和矩陣的算法都能算作向量空間模型。為了我們這次研究，我們把以下内容定義為VSMs的一個屬性：在一個VSM裡的元素值，必須來源于事件的頻率，比如說在給定的文本裡某一詞彙出現的次數（見2.6節）。舉個例子，一個詞典或者說一個知識庫，往往被看作是一個圖，然後這個圖很可能被表示成一個鄰接矩陣的形式，但這不能說明一個詞典是一個VSM，因為，一般而言，鄰接矩陣的值不是來源于事件的頻率。特意強調事件頻率，讓多樣的VSM統一起來，并明确将VSM和分布假設聯系在一起；而且，這排除了其他用矩陣表示的算法的麻煩事。

1.2在AI和認知科學裡的向量

向量經常用于AI和認知科學；它們比向量空間模型還要早Salton et al. (1975)。VSM的新奇之處在于使用語料庫文本的頻率作為發現語義資訊的線索。

在機器學習裡，一個典型的問題是對已經表征成特征向量（feature vectors） (Mitchell, 1997; Witten & Frank, 2005）的項集（a set of items）進行分類或者聚類。一般來說，這些特征不是來源于事件頻率，盡管它們是機率（見4.6節）。舉個例子，一個機器學習算法可以用于分類或者聚類文檔（Sebastiani, 2002）

協同過濾和推薦系統也使用了向量（Resnick, Iacovou, Suchak, Bergstrom, & Riedl, 1994; Breese, Heckerman, & Kadie, 1998; Linden, Smith, & York, 2003）。在一個典型的推薦系統裡，我們有一個人-項（person-item）矩陣，行相當于人（顧客，消費者），列相當于項（産品，賣家），值是人給項的評價（不好，合理，太好）。許多用于項-文檔矩陣（見第4章）很好的數學工具，也可以用于人-項矩陣，盡管評價不是來源于事件頻率。

在認知科學裡，原型理論經常使用了向量。原型理論主要思想是類的某些成員比其他成員更中心（Rosch & Lloyd, 1978; Lakoff, 1987）。例如，robin是鳥類（分類級别）的中心成員（原型的），相比于企鵝是外圍的。概念有不同的類别程度（分類級别）。順理成章，一種把它們形式化的想法就是将概念表示成向量和類是向量的集合（Nosofsky, 1986; Smith, Osherson, Rips, & Keane, 1988）。然而，這些向量是基于數值分數，通過詢問人類受試者獲得的分數；它們不是基于事件頻率。

在其他領域，心理學使用大量的向量用于心理測量，研究心理能力和特征（psychological abilities and traits）的測量方法。通常的實驗手段是測試或者問卷，比如說人格測試（personality test）。測試的結果往往被表示成一個對象-項（subject-item）矩陣，行被表示成實驗對象（人），列被表示成測試（問卷）裡的項（問題）。矩陣的值是相關對象對于相關項的答案（answer）。很多用于向量分析的技術都是從心理測量學裡提出來的，比如因子分析（Spearman, 1904）。

在認知科學，潛在語義分析（LSA）（Deerwester et al., 1990; Landauer & Dumais, 1997），語言的多元空間類比（HAL）（Lund, Burgess, & Atchley, 1995; Lund & Burgess, 1996），還有一些最近的研究（Landauer, McNamara, Dennis, & Kintsch, 2007）可以完全歸進VSMs的範圍裡，正如上面的定義，因為這些研究使用了向量空間模型，值是來源于事件頻率，比如說在給定的文本裡某個詞彙出現的次數。認知科學家認為從經驗和理論上，都可以相信VSMs，比如LSA和HAL，是人類認知某部分的合理模組化（Landauer et al., 2007）。雖然在AI，計算語言學和資訊檢索，這種合理性不是必要的，但顯示了VSMs是一個未來可以研究的方向。

從頻率到意義：語義向量空間模型（2）（From Frequency to Meaning: Vector Space Models of Semantics）

繼續閱讀

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普