hadoop實戰手冊
本書能幫助開發者更友善地使用hadoop,進而熟練地解決問題。讀者會更加熟悉hadoop相關的各種工具進而進行最佳的實踐。
本書指導讀者使用各種工具解決各種問題。這些工具包括:apache hive、pig、mapreduce、mahout、giraph、hdfs、accumulo、redis以及ganglia。
本書提供了深入的解釋以及代碼執行個體。每章的内容包含一組問題集的描述,并對面臨的技術挑戰提出了解決方案,最後完整地解決了這些問題。每節将單一問題分解成不同的步驟,這樣更容易按照步驟執行相關操作。本書覆寫的内容包括:關于hdfs的導入、導出資料,使用giraph進行圖分析,使用hive、pig以及mapreduce進行批量資料分析,使用mahout進行機器學習方法,調試并修改mapreduce作業的錯誤,使用apache accumulo對結構資料進行列存儲與檢索。
本書的示例中涉及的hadoop技術同樣也可以應用于讀者自己所面對的問題。
第2章hdfs
第3章 抽取和轉換資料
第4章使用hive、pig和mapreduce處理常見的任務
第5章進階連接配接操作
第6章大資料分析
第7章進階大資料分析
第8章調試
第9章系統管理
第10章使用apache accumulo進行持久化