
當今網際網路已進入大資料時代,大資料技術已廣泛應用于金融、醫療、教育、電信、政府等領域。各行各業每天都在産生大量的資料,資料計量機關已從B、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB。預計未來幾年,全球資料将呈爆炸式增長。谷歌、阿裡巴巴、百度、京東等網際網路公司都急需掌握大資料技術的人才,而大資料相關人才卻出現了供不應求的狀況。
Hadoop作為大資料生态系統中的核心架構,專為離線和大規模資料處理而設計。Hadoop的核心組成HDFS為海量資料提供了分布式存儲;MapReduce則為海量資料提供了分布式計算。很多網際網路公司都使用Hadoop來實作公司的核心業務,例如華為的雲計算平台、淘寶的推薦系統等,隻要和海量資料相關的領域都有Hadoop的身影。
本書作為Hadoop及其周邊架構的入門書,知識面比較廣,涵蓋了目前整個Hadoop生态系統主流的大資料開發技術。内容全面,代碼可讀性強,以實操為主,理論為輔,一步一步手把手對常用的離線計算以及實時計算等系統進行了深入講解。
全書共16章,第1章講解了VMware中CentOS 7作業系統的安裝;第2章講解了大資料開發之前對作業系統叢集環境的配置;第3~16章講解了Hadoop生态系統各架構HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和資料實時處理系統Flume、Kafka、Storm、Spark以及分布式搜尋系統Elasticsearch等的基礎知識、架構原理、叢集環境搭建,同時包括常用的Shell指令、API操作、源碼剖析,并通過實際案例加深對各個架構的了解與應用。
那麼如何學習本書呢?
本書推薦的閱讀方式是按照章節順序從頭到尾完成閱讀,因為後面的很多章節是以前面的章節為基礎,而且這種一步一個腳印、由淺入深的方式将使你更加順利地掌握大資料的開發技能。
學習本書時,首先根據第1、2章搭建好開發環境,然後依次學習第3~16章,學習每一章時先了解該章的基礎知識和架構的架構原理,然後再進行叢集環境搭建、Shell指令操作等實操練習,這樣學習效果會更好。當書中的理論和實操知識都掌握後,可以進行舉一反三,自己開發一個大資料程式,或者将所學知識運用到自己的程式設計項目上,也可以到各種線上論壇與其他大資料愛好者進行讨論,互幫互助。
本書可作為Hadoop新手入門的指導書籍或者大資料開發人員的參考用書,要求讀者具備一定的Java語言基礎和Linux系統基礎,即使沒有任何大資料基礎的讀者,也可以對照書中的步驟成功搭建屬于自己的大資料叢集,是一本真正的提高讀者動手能力、以實操為主的入門書籍。通過對本書的學習,讀者能夠對大資料相關架構迅速了解并掌握,可以熟練使用Hadoop內建環境進行大資料項目的開發。
京東購買連結:
https://item.jd.com/12576717.html
當當購買連結:
http://product.dangdang.com/27941792.html