天天看點

《Hadoop海量資料處理:技術詳解與項目實戰(第2版)》一導讀

《Hadoop海量資料處理:技術詳解與項目實戰(第2版)》一導讀

hadoop海量資料處理:技術詳解與項目實戰(第2版)

為什麼要寫這本書

2013年被稱為“大資料元年”,标志着世界正式進入了大資料時代,而就在這一年,我加入了清華大學蘇州汽車研究院大資料進行中心,從事hadoop的開發、運維和資料挖掘等方面的工作。從出現之日起,hadoop就深刻地改變了人們處理資料的方式。作為一款開源軟體,hadoop能讓所有人享受到大資料紅利,讓所有人在大資料時代站在了同一起跑線上。hadoop很好地诠釋了什麼是“大道至簡,衍化至繁”,hadoop來源于非常樸素的思想,但是卻衍生出大量的元件,讓初學者難以上手。

我在學習和工作的過程中,走過很多彎路也做過很多無用功,盡管這是學習新技術的必由之路,但卻浪費了大量的時間。我将自己學習和工作的心得記錄下來,為了幫助更多像我當年一樣的hadoop學習者,我決定寫一本書,一本自己開始hadoop職業生涯的時候也想讀到的書。

第3章 hadoop的基石:hdfs

第4章 yarn:統一資源管理和排程平台

第5章 分而治之的智慧:mapreduce

第6章 sql on hadoop:hive

第7章 sql to hadoop : sqoop

第8章 hbase:hadoopdatabase

第9章 hadoop性能調優和運維

應用篇:商業智能系統項目實戰

第10章 線上圖書銷售商業智能系統

第11章 系統結構設計

第12章 在開發之前

第13章 實作資料導入導出子產品

第14章 實作資料分析工具子產品

第15章 實作業務資料的資料清洗子產品

第16章 實作點選流日志的資料清洗子產品

第17章 實作購書轉化率分析子產品

第18章 實作購書使用者聚類子產品

第19章 實作排程子產品

結束篇:總結和展望

第20章 總結和展望