大資料開發是先學習Hadoop還是spark，看10萬程式猿所留下的結論

2019-04-28 23:50:00

首先，我先申明：任何以『做大資料好像掙得多』為名學習資料科學相關的内容都是不謹慎，而且難以有回報的。而且，任何『隻要學會一兩種工具就能做大資料』的想法也都是盲目的，難有成效的。

從目前我遇到過的面試者和看過的履歷來看，凡是沒有過大資料項目經驗的人，履歷寫出花來都是扯淡。部署一個叢集，裝一個Hive，HBase什麼的根本就不叫大資料（有的公司甚至部署Hadoop隻用HDFS，每天處理5GB資料，這是我面過的一個人告訴我的他的工作經驗）。一次處理1個TB以下的資料都不叫大資料（我還在權衡，是不是要提高這個量級）。

大資料是建立在資料科學基礎上的，對程式設計、算法，分布式計算、統計學，線性代數，機器學習，系統構架都有比較高的要求。而且要看英文就像看中文一樣（這條很重要，我一般對于不積極主動看英文資料的人沒有什麼太大的期待）。

我的建議是不要管什麼Hadoop，Spark。把基礎打牢，隻要程式設計技巧和算法精通，能看英文文獻，順便學點機率統計，随便去哪個公司都能應聘大資料的崗位，等有了項目環境，上手Hadoop或者Spark還不是分分鐘的事~

關于大資料的含義前面也有人說了，你想學的是技術層面的話，你所列出的兩個程式設計工具并不存在過多需要糾結的地方，有位高手告訴我，它們都是資料分布運算的一種中間環節和處理過程。

我倒是認為大資料處理和分析中更重要的是和各行業相結合的分析思路和方法，也就是特定場景下的資料分析，這需要你找準自己喜歡并願意作為事業的方向，比如，選擇金融資料分析，健康資料分析等，在這些領域裡你的知識有多廣，決定了你為未來有多高。

大資料的發展之路還有很多年，你還有時間，加油！

大資料開發是先學習Hadoop還是spark，看10萬程式猿所留下的結論

繼續閱讀

C++ 第十五周報告1--《冒泡法排序》

淺談企業活動中進行資料分析的重要性

ubuntu14.04下安裝hbse1.0.1.1

筆試面試題目：滑動視窗(二)

User Defined Hadoop DataType

資料結構與算法（27）——排序（二）

neo4j之cypher使用文檔

Dijkstra--簡易版（最短路徑）

Ambari介紹和架構原理

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

面試題解析：你接口測試是怎麼做的？

sqlServer根據經緯查距離

win10本地scala和spark安裝安裝scala安裝spark

hdu7108哈希