《R語言資料挖掘》----1.5　文本挖掘

2021-11-08 05:56:33

文本挖掘基于文本資料，關注從大型自然語言文本中提取相關資訊，并搜尋有意義的關系、文法關系以及提取實體或各項之間的語義關聯。它也被定義為自動或半自動的文本處理。相關的算法包括文本聚類、文本分類、自然語言處理和網絡挖掘。

文本挖掘的特征之一是數字與文本混合，或者用其他的觀點來說，就是源資料集中包含了混合資料類型。文本通常是非結構化檔案的集合，這将被預處理并變換成數值或者結構化的表示。在變換之後，大部分的資料挖掘算法都可以應用，并具有不錯的效果。

文本挖掘的過程描述如下：

第一步準備文本語料庫，包括報告、信函等。

第二步基于文本語料庫建立一個半結構化的文本資料庫。

第三步建立一個詞國文檔矩陣，包含詞語的頻率。

第四步進行進一步的分析，比如文本分析、語義分析、資訊檢索和資訊總結。

資訊檢索幫助使用者查找資訊，經常與線上文檔相關聯，它着重于資訊的擷取、組織、存儲、檢索和分布。資訊檢索（information retrieval，ir）的任務是根據查詢檢索有關的文檔。資訊檢索的基本技術是測量相似性。其基本步驟如下所述：

指定一個查詢。下面是一些查詢類型：

關鍵詞查詢（keyword query）：由一個關鍵詞清單表示，用來查找包含至少一個關鍵詞的文檔。

布爾查詢（boolean query）：由布爾運算符和關鍵詞建構的查詢。

短語查詢（phrase query）：由組成短語的一系列詞語所構成的查詢。

近鄰查詢（proximity query）：短語查詢的降級版本，它可以是關鍵詞和短

語的組合。

全文檔查詢（full document query）：一個完整文檔的查詢，用于尋找類似于查詢文檔的其他文檔。

自然語言問題（natural language questions）：該查詢有助于将使用者的需求表示成一個自然語言問題。

搜尋文檔集。

傳回相關文檔的子集。

預測文本的結果與預測數值資料挖掘一樣耗力，并且有與數值分類相關聯的相似問題。文本挖掘預測通常是一個分類問題。

文本預測需要先驗知識，通過樣本了解如何對新文檔做出預測。一旦文本變換成數值資料，就可以應用預測方法。

繼續閱讀