大資料學習之路
首先在學習大資料的開始,一定要學會幾個操作。(java和linux基本操作是學習的基礎)
- 看官網,比如 學會自己去官網檢視使用文檔。
- 看日志,比如 搭建分布式或者在學習過程中可能會出現非常多的問題,我們要做到的就是遇到問題自己解決,檢視日志報錯資訊,根據日志中的錯誤來解決這個問題。
-
看源碼,比如
這個的話就比較重要了,就拿mapreduce過程中的分片,我們去檢視源碼的話很容易就可以檢視他的分片規則。
進入FileInputFormat檢視getSplits方法就可以清晰的指導分片規則。
大資料的工具
hdfs:分布式存儲系統
yarn:分布式資源排程
mapreduce:分布式計算架構
hive:資料倉庫工具
hbase:分布式海量存儲資料庫
zookeeper:分布式協調服務
flume:分布式日志采集工具
sqoop:資料導入導出工具
mahout:機器學習算法庫
oozie/azkaban:工作流排程平台
分布式思想
分而治之,處理海量資料。比如,hdfs檔案系統,通過多台機器存儲檔案。後續在學習中需要逐漸培養這種思維方式。