大資料工程師技能要求的學習路線圖

一、大資料相關工作介紹

大資料方向的工作目前主要分為三個主要方向:

1. 大資料工程師

2. 資料分析師

3. 大資料科學家

4. 其他（資料挖掘等）

二、大資料工程師的技能要求

附上大資料工程師技能圖：

大資料工程師技能要求的學習路線圖

必須掌握的技能11條

1. Java進階(虛拟機、并發)

2. Linux 基本操作

3. Hadoop（HDFS+MapReduce+Yarn ）

4. HBase（JavaAPI操作+Phoenix ）

5. Hive(Hql基本操作和原理了解）

6. Kafka

7. Storm/JStorm

8. Scala

9. Python

10. Spark (Core+sparksql+Spark streaming ）

11. 輔助小工具(Sqoop/Flume/Oozie/Hue等)

高階技能6條

1. 機器學習算法以及mahout庫加MLlib

2. R語言

3. Lambda 架構

4. Kappa架構

5. Kylin

6. Alluxio

三、學習路徑

加米谷大資料理論＋代碼＋實戰＋實操的獨有課程體系，下面是加米谷的0基礎大資料開發課程大綱：

第一階段：Java設計與程式設計思想

學習内容：Java設計與程式設計思想

學習目标：Java基礎、Java面向對象、Java進階、資料庫與JDBC

學習效果：熟練掌握Java文法并靈活運用，能夠開發背景應用

第二階段：Web前端開發

學習内容：Web前端開發

學習目标：HTML基礎、CSS3基礎、JS腳本程式設計

學習效果：能夠基于HTML+CSS+JQuery進行前端開發

第三階段：JavaEE進階

學習内容：JavaEE進階

學習目标：JavaWeb後端開發、SSM架構

學習效果：掌握主流JavaWeb架構并靈活運用

第四階段：大資料基礎

學習内容：大資料基礎

學習目标：Linux基礎、Maven基礎

學習效果：熟練掌握Linux及Maven等相關知識并靈活運用

第五階段：HDFS分布式檔案系統

學習内容：HDFS分布式檔案系統

學習目标：HDFS原理剖析、HDFS程式設計

學習效果：深入了解HDFS的原理并靈活運用

第六階段：MapReduce分布式計算模型

學習内容：MapReduce分布式計算模型

學習目标：MapReduce原理剖析、MapReduce實踐

學習效果：熟練掌握MapReduce原理并靈活運用

第七階段：Yarn分布式資料總管

學習内容：Yarn分布式資料總管

學習目标：Yarn原理剖析、Yarn實踐

學習效果：深入了解Yarn的原理并調優

第八階段：Zookeeper分布式協調服務

學習内容：Zookeeper分布式協調服務

學習目标：Zookeeper原理剖析、Zookeeper實踐

學習效果：深入了解Zookeeper的原理并靈活運用

第九階段：Hbase分布式資料庫

學習内容：Hbase分布式資料庫

學習目标：Hbase原理剖析、Hbase程式設計實踐

學習效果：深入了解Hbase的原理并靈活運用及調優

第十階段：Hive分布式資料倉庫

學習内容：Hive分布式資料倉庫

學習目标：Hive原理剖析、Hive程式設計實踐

學習效果：深入了解Hive的原理并靈活運用

第十一階段：FlumeNG分布式資料采集系統

學習内容：FlumeNG分布式資料采集系統

學習目标：FlumeNG原理剖析、FlumeNG程式設計實踐

學習效果：熟練掌握FlumeNG的各種應用場景

第十二階段：Sqoop大資料遷移系統

學習内容：Sqoop大資料遷移系統

學習目标：Sqoop原理剖析、Sqoop程式設計實踐

學習效果：熟練掌握Sqoop并靈活運用

第十三階段：Scala大資料黃金語言

學習内容：Scala大資料黃金語言

學習目标：Scala文法剖析、Scala應用實踐

學習效果：熟練掌握Scala各種文法并靈活運用

第十四階段：kafka分布式總線系統

學習内容：kafka分布式總線系統

學習目标：kafka原理剖析、kafka程式設計實踐

學習效果：深入了解kafka原理并靈活運用及調優

第十五階段：SparkCore大資料計算基石

學習内容：SparkCore大資料計算基石

學習目标：SparkCore核心原理、SparkCore實踐

學習效果：深入了解SparkCore原理并靈活運用及調優

第十六階段：SparkSQL資料挖掘利器

學習内容：SparkSQL資料挖掘利器

學習目标：SparkSQL核心原理、SparkSQL實踐

學習效果：熟練掌握SparkSQL的各種應用場景并靈活運用

第十七階段：SparkStreaming流失計算平台

學習内容：SparkStreaming流失計算平台

學習目标：SparkStreaming核心原理、SparkStreaming實踐

學習效果：深入了解SparkStreaming原理及各種應用場景和調優

第十八階段：SparkMllib機器學習平台

學習内容：SparkMllib機器學習平台

學習目标：SparkMllib算法模型及核心原理、SparkMllib實踐

學習效果：熟練掌握SparkMllib的常用算法并靈活運用

第十九階段：SparkGraphx圖計算平台

學習内容：SparkGraphx圖計算平台

學習目标：SparkGraphx核心原理、SparkGraphx實踐

學習效果：深入了解SparkGraphx的原理并靈活運用

第二十階段：大資料項目實戰

學習内容：大資料項目實戰

學習目标：4個大資料項目的實戰

學習效果：能夠基于所學知識在真實的項目中操練

人工智能、大資料、雲計算和物聯網的未來發展值得重視，均為前沿産業，多智時代專注于人工智能和大資料的入門和科譜，在此為你推薦幾篇優質好文：

大資料工程師就業教育訓練哪個好?

http://www.duozhishidai.com/article-15082-1.html

大資料工程師教育訓練，需要學習的有哪些課程?

http://www.duozhishidai.com/article-15081-1.html

如何成為一名優秀的大資料工程師

http://www.duozhishidai.com/article-7673-1.html

多智時代-人工智能和大資料學習入門網站|人工智能、大資料、物聯網、雲計算的學習交流網站

大資料工程師技能要求的學習路線圖

大資料工程師技能要求的學習路線圖

繼續閱讀

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

HDFS指令行工具

【51CTO學院三周年】自學路上的伴侶

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

【分類算法】什麼是分類算法定義分類與聚類分類過程方法

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

Sql優化一：sql語句優化

Nacos 2.0 更新前後性能對比壓測

尚矽谷—韓順平—圖解 Java設計模式（結構型）（55～）

Storm編譯打包過程中遇到的一些問題及解決方法

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

9.spark Core 進階2--Cashe

淺談企業活動中進行資料分析的重要性

Ambari介紹和架構原理

NOSQL安全攻擊

win10本地scala和spark安裝安裝scala安裝spark