天天看點

10分鐘了解大資料學習的方向和路徑,助你快速入行

摘要:10分鐘了解大資料學習的方向和路徑,助你快速入行

大資料學習路徑

當然如果你想要做一個資料分析師或者資料挖掘師,那麼,你首先要做的不是馬上去買很多的相關書籍,也不是馬上去報一個資料分析師教育訓練課程,我覺得你最先應該做的是弄明白大資料是什麼意思。了解了大資料的含義之後,不管是你自學也好,跟班學習也好,都是可以受益匪淺的。是以,我們先來回答一下大家可能比較關心的一些問題。

01

初識大資料

10分鐘了解大資料學習的方向和路徑,助你快速入行

大資料是一個龐大的體系,其中大緻包括以下幾方面:想學習好大資料可以加我vx号(VIP452141 ) 有視訊資源分享一起學習

1.資料存儲階段(使用者資訊,行為資訊存儲進硬碟)。

2.資料挖掘 清洗 篩選(根據産品需求篩選出符合企業用于盈利需求的資料)

3.資料分析(通過數學分析,商業分析,将挖掘出來的資料進行産品比對盈利分析)

4.産品調整(根據分析進行産品的上下架,疊代開發,達到産品迎合更多使用者的選擇或者銷售出更多的産品。)

5.産品下一步的規劃(譬如新開一個産品線,可以根據資料來進行分析。)

02

選擇我适合那個階段的職位

10分鐘了解大資料學習的方向和路徑,助你快速入行

1.資料存儲階段(SQL,oracle,IBM等等都有相關的課程,根據公司的不同,學習好這些企業的開發工具,基本可以勝任此階段的職位)

2.資料挖掘 清洗 篩選(大資料工程師,要學習JAVA,Linux,SQL,Hadoop,資料序列化系統Avro,資料倉庫Hive,分布式資料庫HBase,資料倉庫Hive,Flume分布式日志架構,Kafka分布式隊列系統課程,Sqoop資料遷移,pig開發,Storm實時資料處理。學會以上基本可以入門大資料工程師,如果想有一個更好的起點,建議前期學習scala程式設計,Spark,R語言等基本現在企業裡面更專業的技能。)

3.資料分析(此階段本人涉獵不是很多,是以大緻說明。需要有比較強悍的商業頭腦以及數字分析能力。好的資料分析師基本都是碩士起步,數學,經濟類專業。)

4.産品調整(經過分析後的資料交由老闆和PM經過協商後進行産品的更新,然後交由程式員進行修改(快消類進行商品的上下架調整))

大資料工程師的技能要求

10分鐘了解大資料學習的方向和路徑,助你快速入行

必須技能10條:

01.Java進階(虛拟機、并發)

02.Linux 基本操作

03.Hadoop(此處為俠義概念單指HDFS+MapReduce+Yarn )

04.HBase(JavaAPI操作+Phoenix )

05.Hive(Hql基本操作和原理了解)

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming )

高階技能6條::

1.機器學習算法以及mahout庫加MLlib

2.R語言

3.Lambda 架構

4.Kappa架構

5.Kylin

6.Aluxio

大資料的學習技術點

10分鐘了解大資料學習的方向和路徑,助你快速入行

1

Hadoop核心

(1) 分布式存儲基石:HDFS

HDFS簡介 入門示範 構成及工作原了解析:資料塊,NameNode, DataNode、資料寫入與讀取過程、資料複制、HA方案、檔案類型、 HDFS常用設定 Java API代碼示範

(2) 分布式計算基礎:MapReduce

MapReduce簡介、程式設計模型、Java API 介紹、程式設計案例介紹、MapReduce調優

(3) Hadoop叢集資源管家:YARN

YARN基本架構 資源排程過程 排程算法 YARN上的計算架構

2

離線計算

(1) 離線日志收集利器:Flume

Flume簡介 核心元件介紹 Flume執行個體:日志收集、适宜場景、常見問題

(2) 離線批處理必備工具:Hive

Hive在大資料平台裡的定位、總體架構、使用場景之Access Log分析 Hive DDL&DML介紹 視圖 函數(内置,視窗,自定義函數) 表的分區、分桶和抽樣 優化

(3) 速度更快的Hive:Impala

Impala在大資料架構中的角色 架構 資料處理過程 一般使用步驟:建立表,分區表,查詢等 常用查詢示範:統計,連接配接等、Impala與Hive的比較 常用配置與最佳使用建議(查錯,調優等)

(4) 更快更強更好用的MR:Spark

Scala&Spark簡介 基礎 Spark程式設計(計算模型RDD、算子Transformation和Actions的使用、使用Spark制作反向索引)Spark SQL和DataFrame 執行個體:使用Spark SQL統計頁面PV和UV

3

實時計算

(1) 流資料內建神器:Kafka

Kafka簡介 構成及工作原了解析 4組核心API 生态圈 代碼示範:生産并消費行為日志

(2) 實時計算引擎:Spark Streaming

Spark Streaming簡介 工作原了解剖 編寫Streaming程式的一般過程 如何部署Streaming程式? 如何監控Streaming程式? 性能調優

(3) 海量資料高速存取資料庫:HBase

HBase簡介 架構及基本元件 HBase Table設計 HBase基本操作 通路HBase的幾種方式

4

大資料ETL

(1) ETL神器:Sqoop,Kettle

資料同步ETL介紹 Kettle常用元件介紹 、抽取Mysql資料到Hive實戰 Sqoop介紹、抽取Hive資料到Mysql實戰

(2) 任務排程雙星:Oozie,Azkaban

ETL與計算任務的統一管理和排程簡介 Crontab排程的方案 自研排程系統的方案 開源系統Oozie和Azkaban 方案總結與經驗分享

5

大資料應用與資料挖掘

(1) 大資料全文檢索引擎:Elasticsearch

全文檢索基礎知識,ES安裝及初級介紹,ES深入了解,使用經驗介紹

(2) 資料倉庫搭建

為什麼要建構大資料平台大資料平台的的經典架構深入剖析“五橫一縱”的架構實踐 知名網際網路公司大資料平台架構簡介

(3) 資料可視化

什麼是資料可視化,資料可視化常用工具與必備技能介,Tableau和ECharts實操講解 ECharts介紹,知名互金公司可視化經驗介紹

(4) 算法介紹

介紹資料挖掘,機器學習,深度學習的差別,R語言和python的介紹,邏輯回歸算法的介紹與應用,以及主要的推薦算法介紹

大資料世界的三大學習方向

資料開發師

資料運維師

資料架構師

01

什麼是大資料開發師?

10分鐘了解大資料學習的方向和路徑,助你快速入行

圍繞大資料系平台系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大資料平台的核心架構。深入掌握如何編寫MapReduce的作業及作業流的管理完成對資料的計算,并能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生态系統的元件如: Yarn,HBase、Hive、Pig等重要元件,能夠實作對平台監控、輔助運維系統的開發。

通過學習一系列面向開發者的Hadoop、Spark等大資料平台開發技術,掌握設計開發大資料系統或平台的工具和技能,能夠從事分布式計算架構如Hadoop、Spark群集環境的部署、開發和管理工作,如性能改進、功能擴充、故障分析等。

02

什麼是大資料運維師

10分鐘了解大資料學習的方向和路徑,助你快速入行

了解Hadoop、Spark、Storm等主流大資料平台的核心架構,熟悉Hadoop的核心元件:HDFS、MapReduce、Yarn;具備大資料叢集環境的資源配置,如網絡要求、硬體配置、系統搭建。熟悉各種大資料平台的部署方式,叢集搭建,故障診斷、日常維護、性能優化,同時負責平台上的資料采集、資料清洗、資料存儲,資料維護及優化。熟練使用Flume、Sqoop等工具将外部資料加載進入大資料平台,通過管理工具配置設定叢集資源實作多使用者協同使用叢集資源。通過靈活、易擴充的Hadoop平台轉變了傳統的資料庫和資料倉庫系統架構,從Hadoop部署實施到運作全程的狀态監控,保證大資料業務應用的安全性、快速響應及擴充能力!

03

什麼是大資料架構師

10分鐘了解大資料學習的方向和路徑,助你快速入行

圍繞大資料系平台系統級的研發人員, 熟練Hadoop、Spark、Storm等主流大資料平台的核心架構。深入掌握如何編寫MapReduce的作業及作業流的管理完成對資料的計算,并能夠使用Hadoop提供的通用算法, 熟練掌握Hadoop整個生态系統的元件如: Yarn,HBase、Hive、Pig等重要元件,能夠實作對平台監控、輔助運維系統的開發。

通過學習一系列面向開發者的Hadoop、Spark等大資料平台開發技術,掌握設計開發大資料系統或平台的工具和技能,能夠從事分布式計算架構如Hadoop、Spark群集環境的部署、開發和管理工作,如性能改進、功能擴充、故障分析等。

繼續閱讀