第一章 Hadoop概念及入門

hadoop學習從以下幾方面展開：

第一章 Hadoop概念及入門

Hadoop基礎概念

大資料：無法在一定的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合，需要新處理模式才能具備更強大的決策力、洞察發現力、流程優化能力的海量、高增長率和多樣化的資訊資産。TB、PB、EB以上的資料量可稱為大資料。大資料主要解決，海量資料的采集、存儲和分析計算問題。
大資料的特點（4V）：volume（大量）、Velocity（高速）、Variety（多樣）、value（低價值密度），如何快速對有價值得的資料進行“提純”，目前是大資料背景下有待解決的問題。
大資料應用場景：抖音相關視訊推薦、電商相關廣告推薦、零售根據使用者消費習慣，為使用者購買提供友善，進而提升商品銷量（紙尿布+啤酒）、物流倉儲，倉庫庫存及車次安排、保險，海量資料挖掘機風險預測，有利于保險行業精準營銷，提升精細化定價能力、金融，多元度展現使用者特征，幫助金融機構推薦優質客戶，防範欺詐風險、房産，大招精準投策與營銷，選出更合适的地，建造更合适的樓，賣給更合适的人。人工智能+5G+物聯網+虛拟與現實。
大資料發展前景：黨的十九大提出“推動網際網路、大資料、人工智能和實體經濟深度結合”、2020年初，中央推出34萬億“新基建”投資計劃、下一個風口5G，可以帶來每秒鐘10G的資料。
大資料部門間業務流程分析：産品人員提出需求（統計實時交易額，銷售排行榜）、資料部門搭建資料平台，分析資料名額、資料可視化（報表展示、郵件發送、大屏展示）
大資料部門内組織結構：平台組、資料倉庫組、實時組、資料挖掘組、報表開發組

第一章 Hadoop概念及入門

Hadoop概述及入門

概念

hadoop是什麼：由apache基金會所開發的分布式系統基礎架構；主要解決海量資料的存儲和海量資料的分析計算問題；從廣義上來說，hadoop通常指的是hadoop生态圈。

第一章 Hadoop概念及入門
hadoop發展曆史：創始人DougCutting，為了實作全文搜尋功能，其在Lucene架構上進行優化更新，查詢引擎和搜尋引擎；2001年年底Lucene稱為apache基金會的一個子項目；對于海量資料Lucene架構面對存儲海量資料困難，檢索海量速度慢的困難，建立微型版Nutch；随後DougCutting等人用了兩年業餘時間實作了DFS和MapReduce機制，是Nutch性能飙升；2005年hadoop作為Lucene的子項目nutch的一部分正式引入apache基金會；2006年3月份，MapReduce和Nutch Distribute file System(NDFS)分别被納入到Hadoop項目中，Hadoop就此誕生，标志着大資料時代來臨。
hadoop三大發行版本：Apache（2006年，最原始，最基礎的版本）、Cloudera（2008内部內建了很多大資料架構，對應産品CDH）、Hortonworks（2011文檔較好，對應産品HDP，現一杯Clouddera公司收購，推出新品牌CDP）
hadoop優勢：高可靠性（底層維護多個資料副本）、高擴張性（在叢集間配置設定任務資料，友善的擴充數以千計的節點，動态增加/删除伺服器）、高效性（并行工作，任務處理速度快）、高容錯性（能将失敗的任務重新配置設定）
hadoop組成：hadoop3.x在組成上沒有變化，細節上有優化。

第一章 Hadoop概念及入門
1）HDFS：分布式檔案系統。nameNode（存儲檔案的中繼資料，如檔案名、檔案目錄結構、檔案屬性、以及每個檔案的塊清單和塊所在的DataNode等）、DataNode（在本地檔案系統存儲檔案塊資料，以及塊資料的校驗和）、SecondaryNameNode（每個一段時間對NameNode中繼資料備份）。 2）YARN：另一種資源協調者，是hadoop的資料總管。

第一章 Hadoop概念及入門
3）MapReduce：分發任務map，彙總計算Reduce；4）HDFS、YARN、MapReduce的關系

第一章 Hadoop概念及入門
大資料技術生态體系：

第一章 Hadoop概念及入門
推薦系統案例架構

第一章 Hadoop概念及入門

環境準備（見後續）

模闆虛拟機的準備
克隆
安裝JDK、Hadoop

hadoop生産叢集搭建（見後續）

本地模式
完全分布式叢集

常見錯誤解決方案（見後續）

第一章 Hadoop概念及入門

hadoop學習從以下幾方面展開：

Hadoop基礎概念

Hadoop概述及入門

繼續閱讀

大資料技術原理與應用（最後三天備考了！！！）

Hadoop FSDataInputStream 和FSDataOutputStream 用法

Windows下Cygwin環境的Hadoop安裝（3）- 運作hadoop中的wordcount執行個體遇到的問題和解決方法

MapReduce運作Wordcount時一直卡在INFO mapreduce.Job: Running job，web檢視一直處于accepted階段

ubuntu hadoop2.6.1，terminal下運作wordcount

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理