一、大資料相關工作介紹
大資料方向的工作目前主要分為三個主要方向:
1. 大資料工程師
2. 資料分析師
3. 大資料科學家
4. 其他(資料挖掘等)
二、大資料工程師的技能要求
附上大資料工程師技能圖:
必須掌握的技能11條
1. Java進階(虛拟機、并發)
2. Linux 基本操作
3. Hadoop(HDFS+MapReduce+Yarn )
4. HBase(JavaAPI操作+Phoenix )
5. Hive(Hql基本操作和原理了解)
6. Kafka
7. Storm/JStorm
8. Scala
9. Python
10. Spark (Core+sparksql+Spark streaming )
11. 輔助小工具(Sqoop/Flume/Oozie/Hue等)
高階技能6條
1. 機器學習算法以及mahout庫加MLlib
2. R語言
3. Lambda 架構
4. Kappa架構
5. Kylin
6. Alluxio
三、學習路徑
加米谷大資料理論+代碼+實戰+實操的獨有課程體系,下面是加米谷的0基礎大資料開發課程大綱:
第一階段:Java設計與程式設計思想
學習内容:Java設計與程式設計思想
學習目标:Java基礎、Java面向對象、Java進階、資料庫與JDBC
學習效果:熟練掌握Java文法并靈活運用,能夠開發背景應用
第二階段:Web前端開發
學習内容:Web前端開發
學習目标:HTML基礎、CSS3基礎、JS腳本程式設計
學習效果:能夠基于HTML+CSS+JQuery進行前端開發
第三階段:JavaEE進階
學習内容:JavaEE進階
學習目标:JavaWeb後端開發、SSM架構
學習效果:掌握主流JavaWeb架構并靈活運用
第四階段:大資料基礎
學習内容:大資料基礎
學習目标:Linux基礎、Maven基礎
學習效果:熟練掌握Linux及Maven等相關知識并靈活運用
第五階段:HDFS分布式檔案系統
學習内容:HDFS分布式檔案系統
學習目标:HDFS原理剖析、HDFS程式設計
學習效果:深入了解HDFS的原理并靈活運用
第六階段:MapReduce分布式計算模型
學習内容:MapReduce分布式計算模型
學習目标:MapReduce原理剖析、MapReduce實踐
學習效果:熟練掌握MapReduce原理并靈活運用
第七階段:Yarn分布式資料總管
學習内容:Yarn分布式資料總管
學習目标:Yarn原理剖析、Yarn實踐
學習效果:深入了解Yarn的原理并調優
第八階段:Zookeeper分布式協調服務
學習内容:Zookeeper分布式協調服務
學習目标:Zookeeper原理剖析、Zookeeper實踐
學習效果:深入了解Zookeeper的原理并靈活運用
第九階段:Hbase分布式資料庫
學習内容:Hbase分布式資料庫
學習目标:Hbase原理剖析、Hbase程式設計實踐
學習效果:深入了解Hbase的原理并靈活運用及調優
第十階段:Hive分布式資料倉庫
學習内容:Hive分布式資料倉庫
學習目标:Hive原理剖析、Hive程式設計實踐
學習效果:深入了解Hive的原理并靈活運用
第十一階段:FlumeNG分布式資料采集系統
學習内容:FlumeNG分布式資料采集系統
學習目标:FlumeNG原理剖析、FlumeNG程式設計實踐
學習效果:熟練掌握FlumeNG的各種應用場景
第十二階段:Sqoop大資料遷移系統
學習内容:Sqoop大資料遷移系統
學習目标:Sqoop原理剖析、Sqoop程式設計實踐
學習效果:熟練掌握Sqoop并靈活運用
第十三階段:Scala大資料黃金語言
學習内容:Scala大資料黃金語言
學習目标:Scala文法剖析、Scala應用實踐
學習效果:熟練掌握Scala各種文法并靈活運用
第十四階段:kafka分布式總線系統
學習内容:kafka分布式總線系統
學習目标:kafka原理剖析、kafka程式設計實踐
學習效果:深入了解kafka原理并靈活運用及調優
第十五階段:SparkCore大資料計算基石
學習内容:SparkCore大資料計算基石
學習目标:SparkCore核心原理、SparkCore實踐
學習效果:深入了解SparkCore原理并靈活運用及調優
第十六階段:SparkSQL資料挖掘利器
學習内容:SparkSQL資料挖掘利器
學習目标:SparkSQL核心原理、SparkSQL實踐
學習效果:熟練掌握SparkSQL的各種應用場景并靈活運用
第十七階段:SparkStreaming流失計算平台
學習内容:SparkStreaming流失計算平台
學習目标:SparkStreaming核心原理、SparkStreaming實踐
學習效果:深入了解SparkStreaming原理及各種應用場景和調優
第十八階段:SparkMllib機器學習平台
學習内容:SparkMllib機器學習平台
學習目标:SparkMllib算法模型及核心原理、SparkMllib實踐
學習效果:熟練掌握SparkMllib的常用算法并靈活運用
第十九階段:SparkGraphx圖計算平台
學習内容:SparkGraphx圖計算平台
學習目标:SparkGraphx核心原理、SparkGraphx實踐
學習效果:深入了解SparkGraphx的原理并靈活運用
第二十階段:大資料項目實戰
學習内容:大資料項目實戰
學習目标:4個大資料項目的實戰
學習效果:能夠基于所學知識在真實的項目中操練
人工智能、大資料、雲計算和物聯網的未來發展值得重視,均為前沿産業,多智時代專注于人工智能和大資料的入門和科譜,在此為你推薦幾篇優質好文:
大資料工程師就業教育訓練哪個好?
http://www.duozhishidai.com/article-15082-1.html
大資料工程師教育訓練,需要學習的有哪些課程?
http://www.duozhishidai.com/article-15081-1.html
如何成為一名優秀的大資料工程師
http://www.duozhishidai.com/article-7673-1.html
多智時代-人工智能和大資料學習入門網站|人工智能、大資料、物聯網、雲計算的學習交流網站