《大数据系统构建：可扩展实时数据系统构建原理与最佳实践》一第一部分批处理层

2021-11-08 05:58:35

第一部分主要介绍lambda架构的批处理层。这部分的章节结合示例讲述相关理论。

第2章探讨了如何对主数据集中的数据进行建模和视图化。

第3章使用apache thrift工具来阐述第2章涉及的概念。

第4章探讨了主数据集的存储要求。你会发现数据库解决方案提供的许多典型特性不适用于主数据集，而且实际上阻碍了主数据存储的优化。一个更简单、更精致的全能型存储解决方案可以更好地满足需求。

第5章使用hadoop的分布式文件系统来阐述主数据集的物理存储。

第6章探讨了在主数据集上使用mapreduce范式来计算任意的函数。一般来说，mapreduce足以计算任何可扩展的函数。尽管mapreduce是强大的，但是你会发现更高阶的抽象应用程序会使它变得更容易使用。

第7章会介绍一个名为jcascalog的强大mapreduce高阶抽象应用。

为了将所有概念联系起来，第8章和第9章给出了为运行superwebanalytics.com示例而实现的完整批处理层。其中，第8章介绍总体架构和算法，而第9章详细介绍工作代码。

继续阅读