天天看點

《大資料導論》一導讀

作 者 簡 介

thomas erl

thomas erl是it暢銷書作者,arcitura教育公司的創始人,prentice hall出版社“thomas erl的服務技術叢書”的編輯。他的書發行量超過200 000冊,成為國際暢銷書,并且已經獲得多個重要it組織成員的正式認可,例如,ibm、microsoft、oracle、intel、accenture、ieee、hl7、mitre、sap、cisco、hp等。作為arcitura公司的ceo,thomas上司研發了國際公認的大資料科學專家認證(bdscp)、雲專家認證(ccp)與soa專家認證(soacp)的課程大綱,設立了一系列正式的、與廠商無關的工業認證,全球已有數千it從業人員獲得了這些認證。thomas還作為演講家與教育家,在20多個國家進行過巡回演講。thomas已經在諸多出刊物上發表過100多篇文章和訪談,包括《華爾街日報》與《cio雜志》。

wajid khattak

wajid khattak是arcitura教育公司的大資料研究者與教育者。他的研究領域包括大資料工程與架構、資料科學、機器學習、分析學與soa。此外,他在商務智能報告解決方案與gis方面有着豐富的.net軟體開發經驗。

wajid于2003年在英國伯明翰城市大學獲得軟體工程學士學位,于2008年在該校以傑出的成績獲得軟體工程與安全碩士學位。另外,wajid還獲得了mcad & mcts(microsoft)、soa架構師、大資料科學家、大資料工程師以及大資料研究顧問(arcitura)認證。

paul buhler

paul buhler博士是一位經驗豐富的it專家,他在商業公司、政府機構和學校均有過從業經驗。在面向服務的計算概念、技術和實作方法領域,他是一位受人尊敬的研究者、實踐者與教育者。他在xaas領域的研究已經延伸到了雲、大資料與萬物網際網路(ioe)。目前他的研究興趣是通過權衡響應式設計原則與基于目标的執行方式,減少業務政策與流程執行之間的差距。

作為modus21的首席科學家,paul buhler博士根據目前業務架構與流程執行架構的發展趨勢調整企業的戰略布局。目前,他還是查爾斯頓學院的合作教授,負責大學生與碩士生計算機科學課程的教學工作。paul buhler博士在南卡羅來納大學獲得計算機工程博士學位,在約翰霍普金斯大學獲得計算機科學碩士學位,在塞特多大學獲得計算機科學學士學位。

目  錄

譯者序

緻謝

作者簡介

<a href="https://yq.aliyun.com/articles/88864" target="_blank">第一部分 大資料基礎</a>

<a href="https://yq.aliyun.com/articles/88885" target="_blank">第1章 了解大資料</a>

<a href="https://yq.aliyun.com/articles/88885" target="_blank">1.1 概念與術語</a>

1.1.1 資料集

1.1.2 資料分析

1.1.3 資料分析學

1.1.4 商務智能

1.1.5 關鍵績效名額

<a href="https://yq.aliyun.com/articles/88897" target="_blank">1.2 大資料特征</a>

1.2.1 容量

1.2.2 速率

1.2.3 多樣性

1.2.4 真實性

1.2.5 價值

<a href="https://yq.aliyun.com/articles/88907" target="_blank">1.3 不同資料類型</a>

1.3.1 結構化資料

1.3.2 非結構化資料

1.3.3 半結構化資料

1.3.4 中繼資料

<a href="https://yq.aliyun.com/articles/88915" target="_blank">1.4 案例學習背景</a>

1.4.1 曆史背景

1.4.2 技術基礎和自動化環境

1.4.3 商業目标和障礙

<a href="https://yq.aliyun.com/articles/88919" target="_blank">1.5 案例學習</a>

1.5.1 确定資料特征

1.5.2 确定資料類型

<a href="https://yq.aliyun.com/articles/88926" target="_blank">第2章 采用大資料的商業動機與驅動</a>

<a href="https://yq.aliyun.com/articles/88926" target="_blank">2.1 市場動态</a>

<a href="https://yq.aliyun.com/articles/88931" target="_blank">2.2 業務架構</a>

<a href="https://yq.aliyun.com/articles/88933" target="_blank">2.3 業務流程管理</a>

<a href="https://yq.aliyun.com/articles/88951" target="_blank">2.4 資訊與通信技術</a>

2.4.1 資料分析與資料科學

2.4.2 數字化

2.4.3 開源技術與商用硬體

2.4.4 社交媒體

2.4.5 超連通社群與裝置

2.4.6 雲計算

<a href="https://yq.aliyun.com/articles/88954" target="_blank">2.5 萬物網際網路</a>

<a href="https://yq.aliyun.com/articles/88957" target="_blank">2.6 案例學習</a>

第3章 大資料采用及規劃考慮

3.1 組織的先決條件

3.2 資料擷取

3.3 隐私性

3.4 安全性

3.5 資料來源

3.6 有限的實時支援

3.7 不同的性能挑戰

3.8 不同的管理需求

3.9 不同的方法論

3.10 雲

3.11 大資料分析的生命周期

3.11.1 商業案例評估

3.11.2 資料辨別

3.11.3 資料擷取與過濾

3.11.4 資料提取

3.11.5 資料驗證與清理

3.11.6 資料聚合與表示

3.11.7 資料分析

3.11.8 資料可視化

3.11.9 分析結果的使用

3.12 案例學習

3.12.1 大資料分析的生命周期

3.12.2 商業案例評估

3.12.3 資料辨別

3.12.4 資料擷取與過濾

3.12.5 資料提取

3.12.6 資料驗證與清理

3.12.7 資料聚合與表示

3.12.8 資料分析

3.12.9 資料可視化

3.12.10 分析結果的使用

第4章 企業級技術與大資料商務智能

4.1 聯機事務處理

4.2 聯機分析處理

4.3 抽取、轉換和加載技術

4.4 資料倉庫

4.5 資料集市

4.6 傳統商務智能

4.6.1 即席報表

4.6.2 儀表闆

4.7 大資料商務智能

4.7.1 傳統資料可視化

4.7.2 大資料的資料可視化

4.8 案例學習

4.8.1 企業技術

4.8.2 大資料商務智能

第二部分 存儲和分析大資料

第5章 大資料存儲的概念

5.1 叢集

5.2 檔案系統和分布式檔案系統

5.3 nosql

5.4 分片

5.5 複制

5.5.1 主從式複制

5.5.2 對等式複制

5.6 分片和複制

5.6.1 結合分片和主從式複制

5.6.2 結合分片和對等式複制

5.7 cap定理

5.8 acid

5.9 base

5.10 案例學習

第6章 大資料處理的概念

6.1 并行資料處理

6.2 分布式資料處理

6.3 hadoop

6.4 處理工作量

6.4.1 批處理型

6.4.2 事務型

6.5 叢集

6.6 批處理模式

6.6.1 mapreduce批處理

6.6.2 map和reduce任務

6.6.3 mapreduce的簡單執行個體

6.6.4 了解mapreduce算法

6.7 實時模式處理

6.7.1 scv原則

6.7.2 事件流處理

6.7.3 複雜事件處理

6.7.4 大資料實時處理與scv

6.7.5 大資料實時處理與mapreduce

6.8 案例學習

6.8.1 處理工作量

6.8.2 批處理模式處理

6.8.3 實時模式處理

第7章 大資料存儲技術

7.1 磁盤儲存設備

7.1.1 分布式檔案系統

7.1.2 rdbms資料庫

7.1.3 nosql資料庫

7.1.4 newsql資料庫

7.2 記憶體儲存設備

7.2.1 記憶體資料網格

7.2.2 記憶體資料庫

7.3 案例學習

第8章 大資料分析技術

8.1 定量分析

8.2 定性分析

8.3 資料挖掘

8.4 統計分析

8.4.1 a/b測試

8.4.2 相關性分析

8.4.3 回歸性分析

8.5 機器學習

8.5.1 分類(有監督的機器學習)

8.5.2 聚類(無監督的機器學習)

8.5.3 異常檢測

8.5.4 過濾

8.6 語義分析

8.6.1 自然語言處理

8.6.2 文本分析

8.6.3 情感分析

8.7 視覺分析

8.7.1 熱點圖

8.7.2 時間序列圖

8.7.3 網絡圖

8.7.4 空間資料制圖

8.8 案例學習

8.8.1 相關性分析

8.8.2 回歸性分析

8.8.3 時間序列圖

8.8.4 聚類

8.8.5 分類

附錄a 案例結論

索引