天天看點

《 短文本資料了解》——1.3短文本了解架構

本節書摘來自華章出版社《短文本資料了解》一書中的第1章,第1.3節,作者:王仲遠 編著,更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

針對上述研究問題與研究現狀,本書将圍繞短文本了解的各項需求及挑戰,重點介紹顯性模型中基于概念化模型進行短文本了解中的關鍵性技術,如圖1.6所示。

《 短文本資料了解》——1.3短文本了解架構

在語義網絡層,主要是建構了解短文本所需要的額外知識源,即知識庫系統或者語義網絡。知識庫包含概念、實體、屬性和關系,當關系足夠豐富時,便構成了語義網絡,它在許多應用中的作用日漸突出。其中,知識庫中的概念和實體關系已經有較為充分的研究,是以本書主要介紹基于機率的屬性提取與推導,進而完善整個語義網絡,以支援其上的模型建構。

在概念化層,本書首先介紹利用語義網絡建構單實體概念化模型。提出一種基于典型性和點互資訊(pmi)的基本層次概念化(basiclevel conceptualization,blc)方法,将單實體映射到一組最能刻畫這個實體各種特征的概念上,并附着于機率值,以支援短文本概念化。基于概念化的短文本了解的目标是把短文本(如搜尋引擎中的查詢關鍵字)所包含的實體映射到語義網絡中的概念上。其中需要解決的核心問題是利用短文本中有限的上下文對詞義進行消歧。利用動詞、形容詞、實體及其屬性,首先從大量的網絡語料中挖掘出它們的各種關系。再利用這些挖掘得到的知識,提出一個整體概念化模型,使用基于随機遊走的疊代算法将查詢中的詞語概念化。

利用上述兩個針對單實體以及短文本的模型,可以進一步解決基于概念化的短文本主題詞與修飾詞檢測。在短文本了解中,主題詞與修飾詞的檢測是一個非常重要的問題。然而在許多情況下,短文本(如搜尋引擎中的查詢關鍵字等)并不遵守文法規則。現有方法通常基于粗粒度、領域相關,以及需要大量訓練資料。本書将介紹一種基于語義的短文本主題詞與修飾詞檢測方法。此方法首先從搜尋日志中擷取大量實體級别的“主題詞修飾詞”對,然後通過概念化模型将這些實體對歸納至概念級别,最後通過這些精細且精确的帶權重的概念模式來進行主題詞與修飾詞的檢測。

此外,單實體概念化模型也能夠幫助解決基于概念化的詞相似度計算。計算兩個詞之間的相似度對很多文本分析了解相關的應用至關重要。目前,這一任務主要有兩種解決方法:基于知識的方法和基于文集的方法。然而,這些方法主要應用在單詞之間的語義相似度計算,無法擴充到多個單詞組成的多詞表達式或文本。針對此問題,本書将介紹一種基于語義網絡的詞相似度計算方法。該語義網絡基于十億級的網頁文本建立,包含百萬級的概念。本書首先闡述如何将兩個詞映射到概念空間,進而介紹一種概念聚類的方法以提高相似度度量的準确性。

在應用層,利用概念化層所建構的各個模型,可以有效應用在不同的任務中,如廣告關鍵字比對、搜尋排序、查詢推薦、短文本聚類、智能問答系統、web表格了解等。本書選取搜尋廣告應用場景,展示了一種基于概念化的海量競價關鍵字比對技術。搜尋廣告是搜尋引擎的主要收入來源。廣告商以關鍵字對他們的廣告競價,而搜尋引擎在競價關鍵字基礎上通過比對使用者查詢進行相關廣告推送。由于查詢和競價關鍵字都是短文本并且不能由标準的詞袋(bag-of-words)方法模組化,大部分現有方法是利用使用者行為資料(例如點選資料、會話資料等)去填補在比對競價關鍵字與使用者查詢上的語義差距。然而這種方法卻不能處理沒有很多使用者行為資料的長尾查詢。盡管它特殊罕見,長尾查詢整體上卻占據相當大的查詢量,并且是搜尋引擎收入的一個重要來源。本書将介紹一種比對查詢和競價關鍵字的新方法。利用機率分類和大型同現網絡,把短文本概念化成一組相關概念。為了處理大量查詢和海量關鍵字,建立概念的語義索引:通過測量它們在機率空間的相似度,對于給定的查詢選擇相關的競價關鍵字。

繼續閱讀