天天看點

從頻率到意義:語義向量空間模型(1)(From Frequency to Meaning: Vector Space Models of Semantics)

作者:Peter D. Turney、Patrick Pantel

翻譯:華南師範大學-吳玺煜

摘要:

       計算機很難了解人類語言的意思。這嚴重限制了我們給計算機傳達指令,限制了計算機向我們解釋它們的行動,也限制了計算機分析和處理文本的能力。語義的向量空間模型(VSMs)是處理這些局限性的開端。這篇文章探究了VSMs對于語義文本處理的作用。我們按照在VSM裡矩陣的結構,組織關于VSMs的文本。包括了三種廣泛類型的VSMs,基于項-文檔(term-document),基于詞-上下文(word-context)和基于對-模式(pair-pattern)的矩陣,也産生了三類應用。我們探究了這三類别的廣泛的應用,我們也介紹了每個類裡的開源項目。在這篇文章中,我們的目的是展示VSMs對于語義的廣闊的應用,為那些已經熟悉這個領域的人提供一個關于VSMs的新視角,也為那些對這個領域不熟的人導航。

1、簡介

       充分利用電腦能力的一個很大的障礙是現在它們很難了解人類語言的意思。搜尋引擎的最新進展隻能抓住人類語言的表層,但還是對社會經濟的影響已經是巨大的。這暗示更深層的語義技術将會引起巨大的變革。向量空間模型(VSMs),這篇文章探究的内容,很可能是這些新語義技術的一部分。

       在這篇文章,我們使用一般意義上的詞語"語義"(semantics),意思是一個單詞(word)、一個詞組(phrase)、一個句子(sentence)、或者是人類語言任何文本的意思、這項研究的意義。我們不考慮"語義"狹義的定義,比如語義網或者基于形式邏輯的語義。我們探究了VSMs它們作為一個表示自然語言語義某一方面的方法和分布假設(distributional hypothesis)之間的聯系。

        VSM被Gerard Salton和他的同僚(Salton, Wong, & Yang, 1975)在SMART資訊檢索系統所發展(Salton, 1971)。SMART開創了很多概念,至今仍被用于現代搜尋引擎(Manning, Raghavan, & Schutze, 2008)。VSM的思想是把集合裡的每個文檔表示(represent)為空間裡的一個點(向量空間裡的一個向量)。空間裡的點越接近,語義相似性就越想相似;空間裡的點越遠,語義上就越遙遠。使用者的一個查詢被表示為同一空間裡的一個點作為一篇文檔(這個查詢被稱為僞文檔(pseudo-document))。文檔按照和該查詢的距離遞增排序,然後展現給使用者。

        VSM用在資訊檢索上的成功,激發了研究者拓展VSM在自然語言處理上的其他語義任務(tasks),取得了令人驚訝的結果。例如,Rapp (2003)使用基于向量的詞義表示,在英語作為外語測試(TOEFL)的同義詞多選題取得了92.5%的分數,然而一個人的平均得分隻有64.5%。Turney (2006)使用一個基于向量的語義關系表示,在SAT大學入學測試的類比多選題得到了56%,相比于一個人57%的平均得分。

       在這篇文章,我們将過去的VSMs組織成這幾個類型,包括:項-文檔(term-document),詞-上下文(word-context)和對-模式(pair-pattern)。我們相信有的特定類型矩陣會比其他矩陣更基礎,比如在特定的語言過程或者數學過程。盡管這三種矩陣類型覆寫了大部分工作,但沒有理由相信這三種排盡了所有的可能性。我們期望未來的工作将會提出新的矩陣類型或者高階張量。

繼續閱讀