10分鐘了解大資料學習的方向和路徑，助你快速入行

摘要：10分鐘了解大資料學習的方向和路徑，助你快速入行

大資料學習路徑

當然如果你想要做一個資料分析師或者資料挖掘師，那麼，你首先要做的不是馬上去買很多的相關書籍，也不是馬上去報一個資料分析師教育訓練課程，我覺得你最先應該做的是弄明白大資料是什麼意思。了解了大資料的含義之後，不管是你自學也好，跟班學習也好，都是可以受益匪淺的。是以，我們先來回答一下大家可能比較關心的一些問題。

初識大資料

10分鐘了解大資料學習的方向和路徑，助你快速入行

大資料是一個龐大的體系，其中大緻包括以下幾方面：想學習好大資料可以加我vx号（VIP452141 ）有視訊資源分享一起學習

1.資料存儲階段（使用者資訊，行為資訊存儲進硬碟）。

2.資料挖掘清洗篩選（根據産品需求篩選出符合企業用于盈利需求的資料）

3.資料分析（通過數學分析，商業分析，将挖掘出來的資料進行産品比對盈利分析）

4.産品調整（根據分析進行産品的上下架，疊代開發，達到産品迎合更多使用者的選擇或者銷售出更多的産品。）

5.産品下一步的規劃（譬如新開一個産品線，可以根據資料來進行分析。）

選擇我适合那個階段的職位

10分鐘了解大資料學習的方向和路徑，助你快速入行

1.資料存儲階段（SQL，oracle，IBM等等都有相關的課程，根據公司的不同，學習好這些企業的開發工具，基本可以勝任此階段的職位）

2.資料挖掘清洗篩選（大資料工程師，要學習JAVA，Linux，SQL，Hadoop，資料序列化系統Avro，資料倉庫Hive，分布式資料庫HBase，資料倉庫Hive，Flume分布式日志架構，Kafka分布式隊列系統課程，Sqoop資料遷移，pig開發，Storm實時資料處理。學會以上基本可以入門大資料工程師，如果想有一個更好的起點，建議前期學習scala程式設計，Spark，R語言等基本現在企業裡面更專業的技能。）

3.資料分析（此階段本人涉獵不是很多，是以大緻說明。需要有比較強悍的商業頭腦以及數字分析能力。好的資料分析師基本都是碩士起步，數學，經濟類專業。）

4.産品調整（經過分析後的資料交由老闆和PM經過協商後進行産品的更新，然後交由程式員進行修改（快消類進行商品的上下架調整））

大資料工程師的技能要求

10分鐘了解大資料學習的方向和路徑，助你快速入行

必須技能10條:

01.Java進階(虛拟機、并發)

02.Linux 基本操作

03.Hadoop（此處為俠義概念單指HDFS+MapReduce+Yarn ）

04.HBase（JavaAPI操作+Phoenix ）

05.Hive(Hql基本操作和原理了解）

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming ）

高階技能6條::

1.機器學習算法以及mahout庫加MLlib

2.R語言

3.Lambda 架構

4.Kappa架構

5.Kylin

6.Aluxio

大資料的學習技術點

10分鐘了解大資料學習的方向和路徑，助你快速入行

Hadoop核心

(1) 分布式存儲基石：HDFS

HDFS簡介入門示範構成及工作原了解析：資料塊，NameNode, DataNode、資料寫入與讀取過程、資料複制、HA方案、檔案類型、 HDFS常用設定 Java API代碼示範

(2) 分布式計算基礎：MapReduce

MapReduce簡介、程式設計模型、Java API 介紹、程式設計案例介紹、MapReduce調優

(3) Hadoop叢集資源管家：YARN

YARN基本架構資源排程過程排程算法 YARN上的計算架構

離線計算

(1) 離線日志收集利器：Flume

Flume簡介核心元件介紹 Flume執行個體：日志收集、适宜場景、常見問題

(2) 離線批處理必備工具：Hive

Hive在大資料平台裡的定位、總體架構、使用場景之Access Log分析 Hive DDL&DML介紹視圖函數（内置，視窗，自定義函數）表的分區、分桶和抽樣優化

(3) 速度更快的Hive：Impala

Impala在大資料架構中的角色架構資料處理過程一般使用步驟：建立表，分區表，查詢等常用查詢示範：統計，連接配接等、Impala與Hive的比較常用配置與最佳使用建議（查錯，調優等）

(4) 更快更強更好用的MR：Spark

Scala&Spark簡介基礎 Spark程式設計（計算模型RDD、算子Transformation和Actions的使用、使用Spark制作反向索引）Spark SQL和DataFrame 執行個體：使用Spark SQL統計頁面PV和UV

實時計算

(1) 流資料內建神器：Kafka

Kafka簡介構成及工作原了解析 4組核心API 生态圈代碼示範：生産并消費行為日志

(2) 實時計算引擎：Spark Streaming

Spark Streaming簡介工作原了解剖編寫Streaming程式的一般過程如何部署Streaming程式？如何監控Streaming程式？性能調優

(3) 海量資料高速存取資料庫：HBase

HBase簡介架構及基本元件 HBase Table設計 HBase基本操作通路HBase的幾種方式

大資料ETL

(1) ETL神器：Sqoop，Kettle

資料同步ETL介紹 Kettle常用元件介紹、抽取Mysql資料到Hive實戰 Sqoop介紹、抽取Hive資料到Mysql實戰

(2) 任務排程雙星：Oozie，Azkaban

ETL與計算任務的統一管理和排程簡介 Crontab排程的方案自研排程系統的方案開源系統Oozie和Azkaban 方案總結與經驗分享

大資料應用與資料挖掘

(1) 大資料全文檢索引擎：Elasticsearch

全文檢索基礎知識，ES安裝及初級介紹，ES深入了解，使用經驗介紹

(2) 資料倉庫搭建

為什麼要建構大資料平台大資料平台的的經典架構深入剖析“五橫一縱”的架構實踐知名網際網路公司大資料平台架構簡介

(3) 資料可視化

什麼是資料可視化，資料可視化常用工具與必備技能介，Tableau和ECharts實操講解 ECharts介紹，知名互金公司可視化經驗介紹

(4) 算法介紹

介紹資料挖掘，機器學習，深度學習的差別，R語言和python的介紹，邏輯回歸算法的介紹與應用，以及主要的推薦算法介紹

大資料世界的三大學習方向

資料開發師

資料運維師

資料架構師

什麼是大資料開發師？

10分鐘了解大資料學習的方向和路徑，助你快速入行

圍繞大資料系平台系統級的研發人員，熟練Hadoop、Spark、Storm等主流大資料平台的核心架構。深入掌握如何編寫MapReduce的作業及作業流的管理完成對資料的計算，并能夠使用Hadoop提供的通用算法，熟練掌握Hadoop整個生态系統的元件如： Yarn，HBase、Hive、Pig等重要元件，能夠實作對平台監控、輔助運維系統的開發。

通過學習一系列面向開發者的Hadoop、Spark等大資料平台開發技術，掌握設計開發大資料系統或平台的工具和技能，能夠從事分布式計算架構如Hadoop、Spark群集環境的部署、開發和管理工作，如性能改進、功能擴充、故障分析等。

什麼是大資料運維師

10分鐘了解大資料學習的方向和路徑，助你快速入行

了解Hadoop、Spark、Storm等主流大資料平台的核心架構，熟悉Hadoop的核心元件：HDFS、MapReduce、Yarn；具備大資料叢集環境的資源配置，如網絡要求、硬體配置、系統搭建。熟悉各種大資料平台的部署方式，叢集搭建，故障診斷、日常維護、性能優化，同時負責平台上的資料采集、資料清洗、資料存儲，資料維護及優化。熟練使用Flume、Sqoop等工具将外部資料加載進入大資料平台，通過管理工具配置設定叢集資源實作多使用者協同使用叢集資源。通過靈活、易擴充的Hadoop平台轉變了傳統的資料庫和資料倉庫系統架構，從Hadoop部署實施到運作全程的狀态監控，保證大資料業務應用的安全性、快速響應及擴充能力！

什麼是大資料架構師

10分鐘了解大資料學習的方向和路徑，助你快速入行

10分鐘了解大資料學習的方向和路徑，助你快速入行

繼續閱讀

ubuntu hadoop2.6.1，terminal下運作wordcount

Spark基礎:Spark簡介及特點,運作模式,安裝Spark,Driver與Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置第1章 Spark概述第2章 Spark運作模式第3章案例實操

MapReduce(一)：入門級程式wordcount及其分析

hadoop操作遇到的問題問題一：輸出檔案已存在

Hadoop之運作wordcount

jdk1.7+Eclipse+Maven3.5+Hadoop2.7.3建構hadoop項目

Spark實作wordcount

Eclipse運作WordCount（詳細版）相關連接配接Eclipse運作WordCount

hadoop 用MR實作join操作

Centos7 下 Hadoop 2.6.4 分布式叢集環境搭建摘要叢集準備安裝JDK 安裝 Hadoop 2.6.4 部署 slaver1-slaver4 啟動 hadoop 叢集成功了

MapReduce的幾個企業級經典面試案例MapReduce的幾個企業級經典面試案例

大資料排錯SparkSpark叢集啟動時候，JAVA_HOME is not sethadoop叢集，某台伺服器jps無任何輸出IDEAkafkahadoopspark sqlfile permissionsIDEA本地測試 - OutOfMemoryError: GC overhead limit exceededhdfs負載均衡

ubuntu14.04下安裝hbse1.0.1.1

User Defined Hadoop DataType

Ambari介紹和架構原理

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結