剩餘章節包括
建構Hadoop叢集;
管理Hadoop;
Pig簡介
Hive簡介:
Hive是一個都見在Hadoop上的資料倉庫架構,它把SQL查詢轉換成Hadoop叢集上運作的MapReduce作業,實作對HDFS上的大規模資料進行查詢。
Hive把資料組織成表,對HDFS上的資料賦予結構,中繼資料(如表模式)存儲在名為metastore的資料庫中。
Hbase+ZooKeeper;
最後是示例分析(在Last.fm的應用,和Hive在Facebook中的應用,Nutch搜尋引擎,Rackspace的日志處理,關于Cascading,使用Pig和Wukong來探索10億)
心情好再看~