《Hadoop與大資料挖掘》——導讀

為什麼要寫這本書

最早提出“大資料”時代到來的是全球知名咨詢公司麥肯錫，麥肯錫稱：“資料，已經滲透到當今每一個行業和業務職能領域，成為重要的生産因素。人們對于海量資料的挖掘和運用，預示着新一波生産率增長和消費者盈餘浪潮的到來。”

早在2012年，大資料（big data）一詞已經被廣泛提起，人們用它來描述和定義資訊爆炸時代産生的海量資料，并命名與之相關的技術發展與創新。那時就有人預計，從2013年至2020年，全球資料規模将增長10倍，每年産生的資料量将由當時的4.4萬億gb，增長至44萬億gb，每兩年翻一番。

既然“大資料”浪潮已經來臨，那麼與之對應的大資料人才呢？在國外，大資料技術發展正如火如荼，各種友善大家學習的資料、教程應有盡有。但是，在國内，這種資料卻是有“門檻”的。其一，這類資料是英文的，對于部分人員來說，閱讀是有難度的；其二，這些資料對于初學者或在校生來說，在理論了解上也有一些難度，沒有充分的動手實踐來協助了解大資料相關技術的原理、架構等；其三，在如何應用大資料技術來解決企業實實在在遇到的大資料相關問題方面，沒有很好的資料；其四，對于企業使用者來說，如何将大資料技術和資料挖掘技術相結合，對企業大量資料進行挖掘，以挖掘出有價值的資訊，也是難點。

作為大資料相關技術，hadoop無疑應用很廣泛。hadoop具有以下優勢：高可靠性、高擴充性、高效性、高容錯性、低成本、生态系統完善。

一般來說，使用hadoop相關技術可以解決企業相關大資料應用，特别是結合諸如mahout、spark mllib等技術，不僅可以對企業相關大資料進行基礎分析，還能建構挖掘模型，挖掘企業大資料中有價值的資訊。

對于學習大資料相關技術的高校師生來說，本書不僅提供了大資料相關技術的基礎講解及原理、架構分析，還針對這些原理，配備有對應的動手實踐章節，幫助讀者加深對原理、架構的認識。同時，在每個子產品結束後，書中會有一個相對獨立的企業應用案例，幫助讀者鞏固學到的大資料技術相關知識。

對于企業使用者或大資料挖掘開發者來說，特别是對想要了解如何将大資料技術應用到企業大資料項目中的企業使用者或者開發者來說，本書也是一份優秀的參考資料。

[第一篇　基礎篇

第1章　淺談大資料

<a href="https://yq.aliyun.com/articles/119070/">1.2　大資料平台</a>

[第2章　大資料存儲與運算利器—hadoop

2.1.1　hadoop簡介

2.1.2　hadoop存儲—hdfs

2.1.3　hadoop計算—mapreduce

2.1.4　hadoop資源管理—yarn

2.1.5　hadoop生态系統

<a href="https://yq.aliyun.com/articles/119144/">2.2　hadoop配置及ide配置</a>

2.2.1　準備工作

2.2.2　環境配置

2.2.3　叢集啟動關閉與監控

2.2.4　動手實踐：一鍵式hadoop叢集啟動關閉

2.2.5　動手實踐：hadoop ide配置

<a href="https://yq.aliyun.com/articles/119163/">2.3　hadoop叢集指令</a>

2.3.1　hdfs常用指令hdfs dfs

2.3.2　動手實踐：hdfs dfs指令實戰

2.3.3　mapreduce常用指令mapred job

2.3.4　yarn常用指令yarn jar

2.3.5　動手實踐：運作mapreduce任務

<a href="https://yq.aliyun.com/articles/119206/">2.4　hadoop程式設計開發</a>

2.4.1　hdfs java api操作

2.4.2　mapreduce原理

2.4.3　動手實踐：編寫word count程式并打包運作

2.4.4　mapreduce元件分析與程式設計實踐

<a href="https://yq.aliyun.com/articles/119222/">2.5　k-means算法原理及hadoopmapreduce實作</a>

2.5.1　k-means算法原理

2.5.2　動手實踐：k-means算法實作

2.5.3　hadoop k-means算法實作思路

2.5.4　hadoop k-means程式設計實作

<a href="https://yq.aliyun.com/articles/119238/">2.6　tf-idf算法原理及hadoopmapreduce實作</a>

2.6.1　tf-idf算法原理

2.6.2　hadoop tf-idf程式設計思路

2.6.3　hadoop tf-idf程式設計實作

《Hadoop與大資料挖掘》——導讀

繼續閱讀

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希