天天看點

大資料入門篇

大資料學習之路

首先在學習大資料的開始,一定要學會幾個操作。(java和linux基本操作是學習的基礎)

  1. 看官網,比如
    大資料入門篇
    學會自己去官網檢視使用文檔。
  2. 看日志,比如
    大資料入門篇
    搭建分布式或者在學習過程中可能會出現非常多的問題,我們要做到的就是遇到問題自己解決,檢視日志報錯資訊,根據日志中的錯誤來解決這個問題。
  3. 看源碼,比如

    這個的話就比較重要了,就拿mapreduce過程中的分片,我們去檢視源碼的話很容易就可以檢視他的分片規則。

    大資料入門篇
    進入FileInputFormat檢視getSplits方法就可以清晰的指導分片規則。

大資料的工具

hdfs:分布式存儲系統

yarn:分布式資源排程

mapreduce:分布式計算架構

hive:資料倉庫工具

hbase:分布式海量存儲資料庫

zookeeper:分布式協調服務

flume:分布式日志采集工具

sqoop:資料導入導出工具

mahout:機器學習算法庫

oozie/azkaban:工作流排程平台

分布式思想

分而治之,處理海量資料。比如,hdfs檔案系統,通過多台機器存儲檔案。後續在學習中需要逐漸培養這種思維方式。

繼續閱讀