天天看點

第一章 Hadoop概念及入門

hadoop學習從以下幾方面展開:

第一章 Hadoop概念及入門

Hadoop基礎概念

  1. 大資料:無法在一定的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,需要新處理模式才能具備更強大的決策力、洞察發現力、流程優化能力的海量、高增長率和多樣化的資訊資産。TB、PB、EB以上的資料量可稱為大資料。大資料主要解決,海量資料的采集、存儲和分析計算問題。
  2. 大資料的特點(4V):volume(大量)、Velocity(高速)、Variety(多樣)、value(低價值密度),如何快速對有價值得的資料進行“提純”,目前是大資料背景下有待解決的問題。
  3. 大資料應用場景:抖音相關視訊推薦、電商相關廣告推薦、零售根據使用者消費習慣,為使用者購買提供友善,進而提升商品銷量(紙尿布+啤酒)、物流倉儲,倉庫庫存及車次安排、保險,海量資料挖掘機風險預測,有利于保險行業精準營銷,提升精細化定價能力、金融,多元度展現使用者特征,幫助金融機構推薦優質客戶,防範欺詐風險、房産,大招精準投策與營銷,選出更合适的地,建造更合适的樓,賣給更合适的人。人工智能+5G+物聯網+虛拟與現實。
  4. 大資料發展前景:黨的十九大提出“推動網際網路、大資料、人工智能和實體經濟深度結合”、2020年初,中央推出34萬億“新基建”投資計劃、下一個風口5G,可以帶來每秒鐘10G的資料。
  5. 大資料部門間業務流程分析:産品人員提出需求(統計實時交易額,銷售排行榜)、資料部門搭建資料平台,分析資料名額、資料可視化(報表展示、郵件發送、大屏展示)
  6. 大資料部門内組織結構:平台組、資料倉庫組、實時組、資料挖掘組、報表開發組
    第一章 Hadoop概念及入門

Hadoop概述及入門

  • 概念
  1. hadoop是什麼:由apache基金會所開發的分布式系統基礎架構;主要解決海量資料的存儲和海量資料的分析計算問題;從廣義上來說,hadoop通常指的是hadoop生态圈。
    第一章 Hadoop概念及入門
  2. hadoop發展曆史:創始人DougCutting,為了實作全文搜尋功能,其在Lucene架構上進行優化更新,查詢引擎和搜尋引擎;2001年年底Lucene稱為apache基金會的一個子項目;對于海量資料Lucene架構面對存儲海量資料困難,檢索海量速度慢的困難,建立微型版Nutch;随後DougCutting等人用了兩年業餘時間實作了DFS和MapReduce機制,是Nutch性能飙升;2005年hadoop作為Lucene的子項目nutch的一部分正式引入apache基金會;2006年3月份,MapReduce和Nutch Distribute file System(NDFS)分别被納入到Hadoop項目中,Hadoop就此誕生,标志着大資料時代來臨。
  3. hadoop三大發行版本:Apache(2006年,最原始,最基礎的版本)、Cloudera(2008内部內建了很多大資料架構,對應産品CDH)、Hortonworks(2011文檔較好,對應産品HDP,現一杯Clouddera公司收購,推出新品牌CDP)
  4. hadoop優勢:高可靠性(底層維護多個資料副本)、高擴張性(在叢集間配置設定任務資料,友善的擴充數以千計的節點,動态增加/删除伺服器)、高效性(并行工作,任務處理速度快)、高容錯性(能将失敗的任務重新配置設定)
  5. hadoop組成:hadoop3.x在組成上沒有變化,細節上有優化。
    第一章 Hadoop概念及入門
    1)HDFS:分布式檔案系統。nameNode(存儲檔案的中繼資料,如檔案名、檔案目錄結構、檔案屬性、以及每個檔案的塊清單和塊所在的DataNode等)、DataNode(在本地檔案系統存儲檔案塊資料,以及塊資料的校驗和)、SecondaryNameNode(每個一段時間對NameNode中繼資料備份)。                                                                                                                                                           2)YARN:另一種資源協調者,是hadoop的資料總管。
    第一章 Hadoop概念及入門
    3)MapReduce:分發任務map,彙總計算Reduce;4)HDFS、YARN、MapReduce的關系
    第一章 Hadoop概念及入門
  6. 大資料技術生态體系:
    第一章 Hadoop概念及入門
  7. 推薦系統案例架構
    第一章 Hadoop概念及入門
  • 環境準備(見後續)
  1. 模闆虛拟機的準備
  2. 克隆
  3. 安裝JDK、Hadoop
  • hadoop生産叢集搭建(見後續)
  1. 本地模式
  2. 完全分布式叢集
  • 常見錯誤解決方案(見後續)

繼續閱讀