天天看點

《大資料系統建構:可擴充實時資料系統建構原理與最佳實踐》一第一部分 批 處 理 層

第一部分主要介紹lambda架構的批處理層。這部分的章節結合示例講述相關理論。

第2章探讨了如何對主資料集中的資料進行模組化和視圖化。

第3章使用apache thrift工具來闡述第2章涉及的概念。

第4章探讨了主資料集的存儲要求。你會發現資料庫解決方案提供的許多典型特性不适用于主資料集,而且實際上阻礙了主資料存儲的優化。一個更簡單、更精緻的全能型存儲解決方案可以更好地滿足需求。

第5章使用hadoop的分布式檔案系統來闡述主資料集的實體存儲。

第6章探讨了在主資料集上使用mapreduce範式來計算任意的函數。一般來說,mapreduce足以計算任何可擴充的函數。盡管mapreduce是強大的,但是你會發現更高階的抽象應用程式會使它變得更容易使用。

第7章會介紹一個名為jcascalog的強大mapreduce高階抽象應用。

為了将所有概念聯系起來,第8章和第9章給出了為運作superwebanalytics.com示例而實作的完整批處理層。其中,第8章介紹總體架構和算法,而第9章詳細介紹工作代碼。

繼續閱讀