天天看點

《Hadoop與大資料挖掘》——導讀

《Hadoop與大資料挖掘》——導讀

為什麼要寫這本書

最早提出“大資料”時代到來的是全球知名咨詢公司麥肯錫,麥肯錫稱:“資料,已經滲透到當今每一個行業和業務職能領域,成為重要的生産因素。人們對于海量資料的挖掘和運用,預示着新一波生産率增長和消費者盈餘浪潮的到來。”

早在2012年,大資料(big data)一詞已經被廣泛提起,人們用它來描述和定義資訊爆炸時代産生的海量資料,并命名與之相關的技術發展與創新。那時就有人預計,從2013年至2020年,全球資料規模将增長10倍,每年産生的資料量将由當時的4.4萬億gb,增長至44萬億gb,每兩年翻一番。

既然“大資料”浪潮已經來臨,那麼與之對應的大資料人才呢?在國外,大資料技術發展正如火如荼,各種友善大家學習的資料、教程應有盡有。但是,在國内,這種資料卻是有“門檻”的。其一,這類資料是英文的,對于部分人員來說,閱讀是有難度的;其二,這些資料對于初學者或在校生來說,在理論了解上也有一些難度,沒有充分的動手實踐來協助了解大資料相關技術的原理、架構等;其三,在如何應用大資料技術來解決企業實實在在遇到的大資料相關問題方面,沒有很好的資料;其四,對于企業使用者來說,如何将大資料技術和資料挖掘技術相結合,對企業大量資料進行挖掘,以挖掘出有價值的資訊,也是難點。

作為大資料相關技術,hadoop無疑應用很廣泛。hadoop具有以下優勢:高可靠性、高擴充性、高效性、高容錯性、低成本、生态系統完善。

一般來說,使用hadoop相關技術可以解決企業相關大資料應用,特别是結合諸如mahout、spark mllib等技術,不僅可以對企業相關大資料進行基礎分析,還能建構挖掘模型,挖掘企業大資料中有價值的資訊。

對于學習大資料相關技術的高校師生來說,本書不僅提供了大資料相關技術的基礎講解及原理、架構分析,還針對這些原理,配備有對應的動手實踐章節,幫助讀者加深對原理、架構的認識。同時,在每個子產品結束後,書中會有一個相對獨立的企業應用案例,幫助讀者鞏固學到的大資料技術相關知識。

對于企業使用者或大資料挖掘開發者來說,特别是對想要了解如何将大資料技術應用到企業大資料項目中的企業使用者或者開發者來說,本書也是一份優秀的參考資料。

[第一篇 基礎篇

第1章 淺談大資料

<a href="https://yq.aliyun.com/articles/119070/">1.2 大資料平台</a>

<a href="https://yq.aliyun.com/articles/119072/">1.3 本章小結</a>

[第2章 大資料存儲與運算利器—hadoop

2.1.1 hadoop簡介

2.1.2 hadoop存儲—hdfs

2.1.3 hadoop計算—mapreduce

2.1.4 hadoop資源管理—yarn

2.1.5 hadoop生态系統

<a href="https://yq.aliyun.com/articles/119144/">2.2 hadoop配置及ide配置</a>

2.2.1 準備工作

2.2.2 環境配置

2.2.3 叢集啟動關閉與監控

2.2.4 動手實踐:一鍵式hadoop叢集啟動關閉

2.2.5 動手實踐:hadoop ide配置

<a href="https://yq.aliyun.com/articles/119163/">2.3 hadoop叢集指令</a>

2.3.1 hdfs常用指令hdfs dfs

2.3.2 動手實踐:hdfs dfs指令實戰

2.3.3 mapreduce常用指令mapred job

2.3.4 yarn常用指令yarn jar

2.3.5 動手實踐:運作mapreduce任務

<a href="https://yq.aliyun.com/articles/119206/">2.4 hadoop程式設計開發</a>

2.4.1 hdfs java api操作

2.4.2 mapreduce原理

2.4.3 動手實踐:編寫word count程式并打包運作

2.4.4 mapreduce元件分析與程式設計實踐

<a href="https://yq.aliyun.com/articles/119222/">2.5 k-means算法原理及hadoopmapreduce實作</a>

2.5.1 k-means算法原理

2.5.2 動手實踐:k-means算法實作

2.5.3 hadoop k-means算法實作思路

2.5.4 hadoop k-means程式設計實作

<a href="https://yq.aliyun.com/articles/119238/">2.6 tf-idf算法原理及hadoopmapreduce實作</a>

2.6.1 tf-idf算法原理

2.6.2 hadoop tf-idf程式設計思路

2.6.3 hadoop tf-idf程式設計實作

<a href="https://yq.aliyun.com/articles/119301/">2.7 本章小結</a>