本章中,你将學習基本的資料挖掘術語,比如資料定義、預處理等。
最重要的資料挖掘算法将通過r語言進行說明,以便幫助你快速掌握原理,包括但不局限于分類、聚類和異常值檢測。在深入研究資料挖掘之前,我們來看一看将要介紹的主題:
資料挖掘
社交網絡挖掘
文本挖掘
網絡資料挖掘
為什麼選擇r
統計學
機器學習
資料屬性與描述
資料測量
資料清洗
資料內建
資料降維
資料變換與離散化
結果可視化
在人類曆史上,來自每個方面的資料結果都是廣泛的,例如網站、由使用者的電子郵件或姓名或賬戶構成的社交網絡、搜尋詞、地圖上的位置、公司、ip位址、書籍、電影、音樂和産品。
資料挖掘技術可應用于任何類型的舊資料或者新資料,每種資料類型都可以運用特定的技術(并不需要全部技術)得到最好的處理。也就是說,資料挖掘技術受到資料類型、資料集大小以及任務應用環境等條件的限制。每一種資料集都有自己适合的資料挖掘解決方案。
一旦舊的資料挖掘技術不能應用于新的資料類型或者如果新的資料類型不能轉換成傳統的資料類型,那麼總是需要研究新的資料挖掘技術。應用于twitter龐大資源集的流資料挖掘算法的演變是一個典型的例子,針對社交網絡開發的圖挖掘算法是另一個例子。
最流行且最基本的資料形式來自資料庫、資料倉庫、有序資料或者序列資料、圖形資料以及文本資料等。換句話說,它們是聯合資料、高維資料、縱向資料、流資料、網絡資料、數值資料、分類資料或者文本資料。
大資料是資料量很大的資料,它不适合存儲在單台機器中。也就是說,在研究大資料時,資料本身的大小成為了問題的一部分。除了容量(volume),大資料的其他兩個主要特征就是多樣性(variety)和速度(velocity),這就是大資料著名的三個特征。速度指的是資料處理的速率或者資料處理有多快;多樣性指的是各種資料源類型。大資料源集合産生的噪聲更頻繁并且影響挖掘的結果,這就需要高效的資料預處理算法。
是以,分布式檔案系統用來作為對大量資料成功執行并行算法的工具,可以肯定的是,每過1秒,我們将得到更多的資料。資料分析和可視化技術是與海量資料相關的資料挖掘任務的主要部分。海量資料的特性吸引了許多與平台相關的新的資料挖掘技術,其中一個就是rhadoop。我們将在後面的内容中對它進行描述。
大資料中的一些重要資料類型如下所述:
第一種資料類型來自錄影機視訊,它包含了用于加快犯罪調查分析、增強零售分析以及軍事情報分析等更多的中繼資料。
第二種資料類型來自嵌入式的傳感器,如醫用傳感器,用來監測病毒的任何潛在爆發。
第三種資料類型來自娛樂,由任何人通過社交媒體自由釋出的資訊。
第四種資料類型來自消費者圖像,它們源自社交媒體,像這種圖像的标注是很重要的。
下面的表說明了資料大小增長的曆史。該表顯示資訊每兩年翻一番多,改變着研究人員或者公司的管理方式,通過資料挖掘技術從資料中擷取價值,揭示着新的資料挖掘研究。

效率、可擴充性、性能、優化以及實時執行的能力對于幾乎所有的算法都是很重要的問題,它對資料挖掘也是如此。資料挖掘算法始終有一些必要的衡量名額或者基準因素。
随着資料量的持續增長,保持資料挖掘算法的效率和可擴充性對于有效地從衆多資料存儲庫或資料流中的海量資料集裡提取資訊是很有必要的。
從單台機器到廣泛分布的資料存儲、衆多資料集的龐大規模以及資料挖掘方法計算的複雜性,這些都是驅動并行和分布式資料密集型挖掘算法發展的因素。