文本挖掘基于文本資料,關注從大型自然語言文本中提取相關資訊,并搜尋有意義的關系、文法關系以及提取實體或各項之間的語義關聯。它也被定義為自動或半自動的文本處理。相關的算法包括文本聚類、文本分類、自然語言處理和網絡挖掘。
文本挖掘的特征之一是數字與文本混合,或者用其他的觀點來說,就是源資料集中包含了混合資料類型。文本通常是非結構化檔案的集合,這将被預處理并變換成數值或者結構化的表示。在變換之後,大部分的資料挖掘算法都可以應用,并具有不錯的效果。
文本挖掘的過程描述如下:
第一步準備文本語料庫,包括報告、信函等。
第二步基于文本語料庫建立一個半結構化的文本資料庫。
第三步建立一個詞國文檔矩陣,包含詞語的頻率。
第四步進行進一步的分析,比如文本分析、語義分析、資訊檢索和資訊總結。
資訊檢索幫助使用者查找資訊,經常與線上文檔相關聯,它着重于資訊的擷取、組織、存儲、檢索和分布。資訊檢索(information retrieval,ir)的任務是根據查詢檢索有關的文檔。資訊檢索的基本技術是測量相似性。其基本步驟如下所述:
指定一個查詢。下面是一些查詢類型:
關鍵詞查詢(keyword query):由一個關鍵詞清單表示,用來查找包含至少一個關鍵詞的文檔。
布爾查詢(boolean query):由布爾運算符和關鍵詞建構的查詢。
短語查詢(phrase query):由組成短語的一系列詞語所構成的查詢。
近鄰查詢(proximity query):短語查詢的降級版本,它可以是關鍵詞和短
語的組合。
全文檔查詢(full document query):一個完整文檔的查詢,用于尋找類似于查詢文檔的其他文檔。
自然語言問題(natural language questions):該查詢有助于将使用者的需求表示成一個自然語言問題。
搜尋文檔集。
傳回相關文檔的子集。
預測文本的結果與預測數值資料挖掘一樣耗力,并且有與數值分類相關聯的相似問題。文本挖掘預測通常是一個分類問題。
文本預測需要先驗知識,通過樣本了解如何對新文檔做出預測。一旦文本變換成數值資料,就可以應用預測方法。