天天看點

R資料挖掘技術-基于R語言的資料挖掘和統計分析技術

教育訓練要點

網際網路點選資料、傳感資料、日志檔案、具有豐富地理空間資訊的移動資料和涉及網絡的各類評論,成為了海量資訊的多種形式。當資料以成百上千TB不斷增長的時候,我們在内部交易系統的曆史資訊之外,需要一種基于大資料分析的決策模型和技術支援。

目前對大資料的分析工具,有Hadoop/Yarn上基于Java語言的Mahout,有Spark上基于Scala的MLlib,但這些工具都由于比較年輕以及側重于計算背景的分布式,與傳統的行業應用聯系還不是太緊密,在傳統行業中應用,至少目前效果和影響還有待提高。

R語言是一個資料分析和圖形顯示的程式設計環境,廣泛用于統計分析、繪圖的語言和操作。同時R也是一個用于統計計算和統計制圖的優秀工具,也是GNU的一個自由、免費、源代碼開放的軟體。R包括一套完整的資料處理、計算和制圖軟體系統。其功能包括:資料存儲和處理系統;數組運算工具(其向量、矩陣運算方面功能尤其強大);完整連貫的統計分析工具;優秀的統計制圖功能;簡便而強大的程式設計語言:可操縱資料的輸入和輸入,可實作分支、循環,使用者可自定義功能。

事實上,R是目前廣大企業通用的資料挖掘與統計分析工具,為此Spark等大資料平台從2014年就開始在SparkR等技術中,将R引入到大資料統計分析中,未來形成以R語言為代表的SparkR, 以類SQL為代表的SparkQL,以及Hive on Tez三足鼎立的大資料統計分析工具和平台。

本課程從R語言資料挖掘和統計分析實戰的角度,結合理論和實踐,全方位地介紹R這一高性能資料分析工具的開發技巧。本課程涉及的主題包括:本教育訓練将介紹基于R語言進行資料處理、資料探索的基本方法,利用R語言實作模型選擇、Logistic回歸及決策樹算法,以及貝葉斯算法及支援向量機、神經網絡等算法原理及實作進行講解。

本課程教學過程中還從國内外經典R語言教材和應用中,提取了大量的案例分析來幫助學員了解如何用R系列工具來解決資料統計分析的具體問題,并介紹了從資料中挖掘出有價值的資訊的關鍵。

本課程不是一個泛泛的理論性、概念性的介紹課程,而是針對問題讨論解決方案的深入課程。教師對于上述領域有深入的理論研究與實踐經驗,在課程中将會針對這些問題與學員一起進行研究,在關鍵點上還會搭建實驗環境進行實踐研究,以加深對于這些解決方案的了解。通過本課程學習,希望推動R相關的項目開發上升到一個新水準。

教育訓練内容

第一講資料挖掘和R簡介

1.1 資料挖掘

1.2 R語言

1.3 Iris資料集

1.4Bodyfat資料集

第二講資料的導入與導出

2.1 R資料的儲存與加載

2.2 CSV檔案的導入與導出

2.3 通過ODBC從資料庫中讀取資料

2.4 從Excel中導入與導出資料

第三講資料可視化展現

3.1 檢視資料

3.2 單個變量展現

3.3 多個變量展現

3.4 更多探索

3.5 将圖表儲存到檔案中

第四講決策樹與随機森林

4.1 使用party包建構決策樹

4.2 使用rpart包建構決策樹

4.3 随機森林

第五講回歸分析

5.1 線性回歸

5.2 邏輯回歸

5.3 廣義線性回歸

5.4 非線性回歸

第六講聚類分析

6.1 k-means聚類

6.2 k-medoids聚類

6.3 層次聚類

6.4 基于密度的聚類

第七講離群點檢測

7.1 單變量的離群點檢測

7.2 局部離群點因子檢測

7.3 用聚類方法進行離群點檢測

7.4 時間序列資料的離群點檢測

第八講時間序列分析

8.1 R中的時間序列資料

8.2 時間序列分解

8.3 時間序列預測

8.4 時間序列聚類

8.5 時間序列分類

第九講關聯規則

9.1 關聯規則的基本概念

9.2 Titanic資料集

9.3 關聯規則挖掘

9.4 消除備援

9.5 解釋規則

9.6 關聯規則的可視化

第十講社交網絡分析

10.1 詞項網絡

10.2 推文網絡

10.3 雙模式網絡

第十一講 R與Hadoop/Spark等大資料技術的融合

   1)R/Hadoop資料處理技術介紹

   2)SparkR資料處理技術介紹

   3)基于Hadoop/Yarn叢集的應用展望

教育訓練目标

1,全面了解R語言資料挖掘的相關知識。

2,學習R的資料挖掘核心技術方法以及應用特征。

3,深入使用R在資料挖掘和分析中的使用。

4,了解R與Hadoop、Spark等技術的融合使用。

繼續閱讀