hadoop學習從以下幾方面展開:
Hadoop基礎概念
- 大資料:無法在一定的時間範圍内用正常軟體工具進行捕捉、管理和處理的資料集合,需要新處理模式才能具備更強大的決策力、洞察發現力、流程優化能力的海量、高增長率和多樣化的資訊資産。TB、PB、EB以上的資料量可稱為大資料。大資料主要解決,海量資料的采集、存儲和分析計算問題。
- 大資料的特點(4V):volume(大量)、Velocity(高速)、Variety(多樣)、value(低價值密度),如何快速對有價值得的資料進行“提純”,目前是大資料背景下有待解決的問題。
- 大資料應用場景:抖音相關視訊推薦、電商相關廣告推薦、零售根據使用者消費習慣,為使用者購買提供友善,進而提升商品銷量(紙尿布+啤酒)、物流倉儲,倉庫庫存及車次安排、保險,海量資料挖掘機風險預測,有利于保險行業精準營銷,提升精細化定價能力、金融,多元度展現使用者特征,幫助金融機構推薦優質客戶,防範欺詐風險、房産,大招精準投策與營銷,選出更合适的地,建造更合适的樓,賣給更合适的人。人工智能+5G+物聯網+虛拟與現實。
- 大資料發展前景:黨的十九大提出“推動網際網路、大資料、人工智能和實體經濟深度結合”、2020年初,中央推出34萬億“新基建”投資計劃、下一個風口5G,可以帶來每秒鐘10G的資料。
- 大資料部門間業務流程分析:産品人員提出需求(統計實時交易額,銷售排行榜)、資料部門搭建資料平台,分析資料名額、資料可視化(報表展示、郵件發送、大屏展示)
- 大資料部門内組織結構:平台組、資料倉庫組、實時組、資料挖掘組、報表開發組
Hadoop概述及入門
- 概念
- hadoop是什麼:由apache基金會所開發的分布式系統基礎架構;主要解決海量資料的存儲和海量資料的分析計算問題;從廣義上來說,hadoop通常指的是hadoop生态圈。
- hadoop發展曆史:創始人DougCutting,為了實作全文搜尋功能,其在Lucene架構上進行優化更新,查詢引擎和搜尋引擎;2001年年底Lucene稱為apache基金會的一個子項目;對于海量資料Lucene架構面對存儲海量資料困難,檢索海量速度慢的困難,建立微型版Nutch;随後DougCutting等人用了兩年業餘時間實作了DFS和MapReduce機制,是Nutch性能飙升;2005年hadoop作為Lucene的子項目nutch的一部分正式引入apache基金會;2006年3月份,MapReduce和Nutch Distribute file System(NDFS)分别被納入到Hadoop項目中,Hadoop就此誕生,标志着大資料時代來臨。
- hadoop三大發行版本:Apache(2006年,最原始,最基礎的版本)、Cloudera(2008内部內建了很多大資料架構,對應産品CDH)、Hortonworks(2011文檔較好,對應産品HDP,現一杯Clouddera公司收購,推出新品牌CDP)
- hadoop優勢:高可靠性(底層維護多個資料副本)、高擴張性(在叢集間配置設定任務資料,友善的擴充數以千計的節點,動态增加/删除伺服器)、高效性(并行工作,任務處理速度快)、高容錯性(能将失敗的任務重新配置設定)
- hadoop組成:hadoop3.x在組成上沒有變化,細節上有優化。 1)HDFS:分布式檔案系統。nameNode(存儲檔案的中繼資料,如檔案名、檔案目錄結構、檔案屬性、以及每個檔案的塊清單和塊所在的DataNode等)、DataNode(在本地檔案系統存儲檔案塊資料,以及塊資料的校驗和)、SecondaryNameNode(每個一段時間對NameNode中繼資料備份)。 2)YARN:另一種資源協調者,是hadoop的資料總管。 3)MapReduce:分發任務map,彙總計算Reduce;4)HDFS、YARN、MapReduce的關系
- 大資料技術生态體系:
- 推薦系統案例架構
- 環境準備(見後續)
- 模闆虛拟機的準備
- 克隆
- 安裝JDK、Hadoop
- hadoop生産叢集搭建(見後續)
- 本地模式
- 完全分布式叢集
- 常見錯誤解決方案(見後續)