天天看點

《資料科學:R語言實作》——導讀

《資料科學:R語言實作》——導讀

大資料、物聯網、人工智能已經變成近幾年最熱門的科技流行語。盡管大家用很多名詞去定義這些技術,但是共通的思想是它們都是資料驅動的。人們并不滿足于簡單地擁有資料,因為發現其中的價值才是最本質的。是以資料科學家已經開始關注如何從原始資料中洞悉深層價值。

資料科學已經變成學術界和産業界最流行的話題。但是資料科學是一門非常寬泛的學科,學會掌握資料科學注定很有挑戰性。初學者必須學習如何準備、處理、聚合和可視化資料。而更多進階技能包括機器學習,挖掘各種資料格式(文本、圖像和視訊),以及最重要的—使用資料産生商業價值。資料科學家的角色需要大量的努力,同時,一名成功的資料科學家也需要一個有力的工具來解決日常問題。

在這個領域中,資料科學家使用最廣泛的工具是開源而且免費的r語言。作為一種機器語言,r提供了許多資料處理函數、學習庫和可視化函數,允許使用者快速上手分析資料。r可以幫助使用者快速執行分析,并在不需要懂得複雜數學模型細節的前提下執行機器學習算法。

本書給出了實際方案,教你如何使用r語言将資料科學落地。全書共12章,每一章都分成幾個簡單的教程。通過每一個教程循序漸進的介紹,你可以使用r的程式包,掌握書中所教授的技術。

本書首先介紹如何建立r函數來避免不必要的代碼重複。你會學到如何使用r程式包,在各種資料源上準備資料、處理資料和執行進階etl操作。資料操作的一個例子是介紹如何使用dplyr和data.table程式包有效地處理大型資料結構。還有一章關注ggplot2,介紹如何建立進階圖形,進行資料展示。你也會學到如何使用ggvis程式包建構互動式報告。

本書也會介紹如何使用資料挖掘技術發現經常一起購買的産品。後面的章節還給出了财務資料的時間序列分析結果。還有一些章節會深入介紹機器學習技術,包括資料分類、回歸、聚類和降維。我可以保證,本書會讓你覺得,資料科學學習原來如此簡單。

主要内容

第1章介紹如何建立r函數。該章會介紹r函數的基本構成、環境和參數比對。我們還會介紹進階技術,例如閉包、函數式程式設計和如何處理錯誤。

第2章介紹如何使用r讀取結構化和非結構化的資料。該章首先介紹從文本檔案中讀取資料。然後,介紹如何把r和資料庫連接配接起來。最後,你會學到如何編寫網絡爬蟲,爬取網頁和社交網絡上的非結構化資料。

第3章介紹分析前的資料準備工作。在該章中,我們會介紹資料預處理過程,使用基本的r函數,進行例如類型轉換、添加、過濾、舍棄、重塑和缺失值估計。

第4章介紹如何使用進階程式包data.table和dplyr有效而且高效地操作資料。data.table提供了快速加載和聚合大型資料的可能。dplyr程式包提供了以類似sql的文法操作資料的能力。

第5章介紹使用ggplot2可視化資料。首先介紹ggplot2的基本構成。然後,介紹進階技術,使用ggplot2函數建立複雜的圖形。最後,介紹如何使用ggmap建構地圖。

第6章展示如何使用r建立一份專業的報告。首先,讨論如何使用r markdown文法,嵌入r代碼塊。然後,介紹如何使用ggvis添加互動式圖表。最後,介紹如何建立和釋出r shiny報告。

第7章關注如何從不同的機率分布上抽樣資料。作為一個具體的例子,我們會介紹如何使用機率函數模拟随機交易過程。

第8章首先讨論點估計和置信區間。然後,介紹參數和非參數檢驗方法。最後,介紹如何使用anova分析工程師的收入是否會随着頭銜和地區的變化而不同。

第9章介紹用于發現交易資料中關聯項和暗藏的頻率模式的常用方法。在該章中,我們會使用一個實際例子,以便你可以學到如何在實際的資料集中執行規則和模式挖掘。

第10章首先介紹如何從财務資料集中建立和操作時間序列。然後介紹如何使用holtwinters和arima預測時間序列。該章會通過一個實際例子介紹如何使用arima預測股票價格。

第11章介紹如何建構基于标注訓練資料的預測模型。你會學到如何使用回歸模型了解數值關系,并使用拟合模型進行連續值預測。對于分類任務,你會學到如何拟合資料,生成一個樹形分類器。

第12章介紹未标注資料的隐含結構。首先,介紹如何使用聚類方法對位置臨近的旅館進行分組。然後,介紹如何使用pca方法選取和抽取經濟自由度資料集中的特征。

前言

<a href="https://yq.aliyun.com/articles/109055">第1章 r中的函數</a>

<a href="https://yq.aliyun.com/articles/109058">1.1引言</a>

<a href="https://yq.aliyun.com/articles/109060">1.2 建立r函數</a>

<a href="https://yq.aliyun.com/articles/109066">1.3 比對參數</a>

<a href="https://yq.aliyun.com/articles/109069">1.4 了解環境</a>

<a href="https://yq.aliyun.com/articles/109072">1.5 使用詞法域</a>

<a href="https://yq.aliyun.com/articles/109077">1.6 了解閉包</a>

<a href="https://yq.aliyun.com/articles/109082">1.7 執行延遲計算</a>

<a href="https://yq.aliyun.com/articles/109084">1.8 建立中綴操作符</a>

<a href="https://yq.aliyun.com/articles/109085">1.9 使用替代函數</a>

<a href="https://yq.aliyun.com/articles/109088">1.10 處理函數中的錯誤</a>

<a href="https://yq.aliyun.com/articles/109091">1.11 調試函數</a>

<a href="https://yq.aliyun.com/articles/109092/">第2章 資料抽取、轉換和加載</a>

<a href="https://yq.aliyun.com/articles/109093">2.1 引言</a>

<a href="https://yq.aliyun.com/articles/109098">2.2 下載下傳公開資料</a>

<a href="https://yq.aliyun.com/articles/109101/">2.3 讀取和寫入csv檔案</a>

<a href="https://yq.aliyun.com/articles/109106">2.4 掃描文本檔案</a>

<a href="https://yq.aliyun.com/articles/109107">2.5 使用excel檔案</a>

<a href="https://yq.aliyun.com/articles/109109">2.6 從資料庫中讀取資料</a>

<a href="https://yq.aliyun.com/articles/109114">2.7 爬取網絡資料</a>

<a href="https://yq.aliyun.com/articles/109117">2.8 擷取facebook資料</a>

<a href="https://yq.aliyun.com/articles/109122">2.9 使用twitter</a>

<a href="https://yq.aliyun.com/articles/109127">第3章 資料預處理和準備</a>

<a href="https://yq.aliyun.com/articles/109131">3.1 引言</a>

<a href="https://yq.aliyun.com/articles/109134">3.2 重命名資料變量</a>

<a href="https://yq.aliyun.com/articles/109137">3.3 轉換資料類型</a>

<a href="https://yq.aliyun.com/articles/109140">3.4 使用日期格式</a>

<a href="https://yq.aliyun.com/articles/109142">3.5 添加新的記錄</a>

<a href="https://yq.aliyun.com/articles/109145">3.6 過濾資料</a>

<a href="https://yq.aliyun.com/articles/109147">3.7 舍棄資料</a>

<a href="https://yq.aliyun.com/articles/109150">3.8 合并資料</a>

<a href="https://yq.aliyun.com/articles/109152">3.9 排列資料</a>

<a href="https://yq.aliyun.com/articles/109155">3.10 重塑資料</a>

<a href="https://yq.aliyun.com/articles/109156">3.11 檢測缺失資料</a>

<a href="https://yq.aliyun.com/articles/109158">3.12 估計缺失資料</a>

第4章 資料操作

4.1 引言

4.2 使用data.table加強data.frame

4.3 使用data.table管理資料

4.4 使用data.table執行快速聚合

4.5 使用data.table合并大型資料集

4.6 使用dplyr進行資料抽取和切片

4.7 使用dplyr進行資料抽樣

4.8 使用dplyr選取列

4.9 使用dplyr進行鍊式操作

4.10 使用dplyr整理行

4.11 使用dplyr消除重複行

4.12 使用dplyr添加新列

4.13 使用dplyr彙總資料

4.14 使用dplyr合并資料

第5章 使用ggplot2可視化資料

5.1 引言

5.2 使用ggplot2建立基礎圖形

5.3 改變美學映射

5.4 引入幾何對象

5.5 執行變換

5.6 調整圖形尺度

5.7 分面

5.8 調整主題

5.9 組合圖形

5.10 建立地圖

第6章 制作互動式報告

6.1 引言

6.2 建立r markdown報告

6.3 學習markdown文法

6.4 嵌入r代碼塊

6.5 使用ggvis建立互動式圖形

6.6 了解基礎文法

6.7 控制坐标軸和圖例

6.8 使用尺度

6.9 給ggvis圖形添加互動

6.10 建立r shiny文檔

6.11 釋出r shiny報告

第7章 機率分布模拟

7.1 引言

7.2 生成随機樣本

7.3 了解均勻分布

7.4 生成二項随機變量

7.5 生成泊松随機變量

7.6 從正态分布中抽樣

7.7 從卡方分布中抽樣

7.8 了解學生t-分布

7.9 從資料集中抽樣

7.10 模拟随機過程

第8章 r中的統計推斷

8.1 引言

8.2 擷取置信區間

8.3 執行z-檢驗

8.4 執行學生t-檢驗

8.5 執行精确二項檢驗

8.6 執行kolmogorov-smirnov檢驗

8.7 使用pearson卡方檢驗

8.8 了解wilcoxon秩和檢驗

8.9 執行單因素方差分析

8.10 執行雙因素方差分析

第9章 r語言規則和模式挖掘

9.1 引言

9.2 把資料轉換為事務

9.3 展示事務和關聯

9.4 使用apriori規則挖掘關聯關系

9.5 對備援規則剪枝

9.6 可視化關聯規則

9.7 使用eclat挖掘頻繁項集

9.8 使用時序資訊建立事務

9.9 使用cspade挖掘頻繁序列模式

繼續閱讀