天天看點

《Hadoop與大資料挖掘》一2.7 本章小結

本節書摘來華章計算機《hadoop與大資料挖掘》一書中的第2章 ,第2.7節,張良均 樊 哲 位文超 劉名軍 許國傑 周 龍 焦正升 著 更多章節内容可以通路雲栖社群“華章計算機”公衆号檢視。

本章首先介紹了hadoop的基本概念、原理以及hadoop生态系統各個架構。接着,介紹了hadoop的安裝配置以及開發環境ide配置。在此基礎上介紹了hadoop常用的叢集指令、hadoop mapreduce程式設計開發原理,針對mapreduce程式設計開發,詳細介紹了map-reduce原理、單詞計數源碼分析,結合源碼分析了mapreduce原理。在本章的最後兩個小節,分别介紹了資料挖掘中的經典算法:k-means算法、tf-idf算法,并針對其hadoop mapreduce實作進行了詳細分析。同時,本章中包含大量動手實踐章節,這些動手實踐章節要求讀者自行完成(部分有示例代碼參考),通過這些動手實踐環節,可以加深讀者對hadoop、hadoop hdfs、hadoop mapreduce的了解,同時對如何針對經典算法或者單機算法使用hadoop mapreduce模式來實作肯定會有自己的心得體會。

相信通過本章的學習,讀者不僅可以對hadoop、hadoop mapreduce的原理有更深入的了解,而且對開發hadoop mapreduce程式也可以說初窺門徑了。