天天看點

《Spark大資料分析:核心概念、技術及實踐》導讀

contents  目  錄

譯者序

前言

緻謝

1.1 hadoop

1.1.1 hdfs

1.1.2 mapreduce

1.1.3 hive

1.2 資料序列化

1.2.1 avro

1.2.2 thrift

1.2.3 protocol buffers

1.2.4 sequencefile

1.3 列存儲

1.3.1 rcfile

1.3.2 orc

1.3.3 parquet

1.4 消息系統

1.4.1 kafka

1.4.2 zeromq

1.5 nosql

1.5.1 cassandra

1.5.2 hbase

1.6 分布式sql查詢引擎

1.6.1 impala

1.6.2 presto

1.6.3 apache drill

1.7 總結15

2.1 函數式程式設計

2.1.1 函數

2.1.2 不可變資料結構

2.1.3 一切皆表達式

2.2 scala基礎

2.2.1 起步

2.2.2 基礎類型

2.2.3 變量

2.2.4 函數

2.2.5 類

2.2.6 單例

2.2.7 樣本類

2.2.8 模式比對

2.2.9 操作符

2.2.10 特質

2.2.11 元組

2.2.12 option類型

2.2.13 集合

2.3 一個單獨的scala應用程式

2.4 總結

3.1 概述

3.1.1 主要特點

3.1.2 理想的應用程式

3.2 總體架構

3.2.1 worker

3.2.2 叢集管理者

3.2.3 驅動程式

3.2.4 執行者

3.2.5 任務

3.3 應用運作

3.3.1 術語

3.3.2 應用運作過程

3.4 資料源

3.5 api

3.5.1 sparkcontext

3.5.2 rdd

3.5.3 建立rdd

3.5.4 rdd操作

3.5.5 儲存rdd

3.6 惰性操作

3.7 緩存

3.7.1 rdd的緩存方法

3.7.2 rdd緩存是可容錯的

3.7.3 緩存記憶體管理

3.8 spark作業

3.9 共享變量

3.9.1 廣播變量

3.9.2 累加器

3.10 總結