天天看點

《R語言資料挖掘》----1.6 網絡資料挖掘

網絡挖掘的目的是從網絡超連結結構、網頁和使用資料來發現有用的資訊或知識。網絡是作為資料挖掘應用輸入的最大資料源之一。

網絡資料挖掘基于資訊檢索、機器學習(machine learning,ml)、統計學、模式識别和資料挖掘。盡管很多資料挖掘方法可以應用于網絡挖掘,但是由于異構的、半結構化的和非結構化的網絡資料,是以網絡挖掘不單純是一個資料挖掘問題。

網絡挖掘任務至少可以定義為3種類型:

網絡結構挖掘(web structure mining):這有助于從超連結中尋找有關網址和頁面的有用資訊或者有價值的結構總結。

網絡内容挖掘(web content mining):這有助于從網頁内容中挖掘有用的資訊。

網絡用法挖掘(web usage mining):這有助于從網絡日志中發現使用者通路模式,以便檢測入侵、欺詐和試圖闖入的情況。

應用于網絡資料挖掘的算法源自經典的資料挖掘算法。它們有很多相似之處,比如挖掘過程,但也存在差異。網絡資料挖掘的特征使其不同于資料挖掘的原因如下:

資料是非結構化的。

網絡資訊不斷變化和資料量不斷增長。

任何資料類型都可以在網絡上得到,如結構化和非結構化資料。

網絡上存在異構資訊,備援頁面也存在。

網絡上連結着海量資訊。

資料是噪聲資料。

網絡資料挖掘不同于一般資料挖掘是由于源資料集的巨大動态容量、極其多樣化的資料格式等。與網絡相關的最流行的資料挖掘任務如下:

資訊提取(information extraction,ie):資訊提取的任務包含以下步驟:詞彙标記、句子分割、詞性配置設定、命名實體識别、短語解析、句子解析、語義解釋、話語解釋、模闆填充以及合并。

自然語言處理(natural language processing,nlp):它研究人與人和人與機器互動的語言特征、語言能力和行為模型、用這樣的模型實作過程的架構、過程/模型的疊代優化以及對結果系統的評估技術。與網絡資料挖掘相關的經典自然語言處理任務包括标注、知識表示、本體論模型等。

問題回答(question answering):目标就是以自然語言形式從文本集中尋找問題的答案。它可以歸類為槽填充、有限域以及具有更高難度的開放域。一個簡單的例子就是基于預先定義的常見問題解答(faq)來回答客戶的詢問。

資源發現(resource discovery):比較流行的應用是優先收集重要的頁面;使用鍊路拓撲結構、主題局部性和主題爬行進行相似性搜尋;社群發現。

繼續閱讀