大資料入門篇

2023-06-04 16:54:54

大資料學習之路

首先在學習大資料的開始，一定要學會幾個操作。（java和linux基本操作是學習的基礎）

看官網，比如

大資料入門篇
學會自己去官網檢視使用文檔。
看日志，比如

大資料入門篇
搭建分布式或者在學習過程中可能會出現非常多的問題，我們要做到的就是遇到問題自己解決，檢視日志報錯資訊，根據日志中的錯誤來解決這個問題。
看源碼，比如

這個的話就比較重要了，就拿mapreduce過程中的分片，我們去檢視源碼的話很容易就可以檢視他的分片規則。

大資料入門篇
進入FileInputFormat檢視getSplits方法就可以清晰的指導分片規則。

大資料的工具

hdfs：分布式存儲系統

yarn：分布式資源排程

mapreduce：分布式計算架構

hive：資料倉庫工具

hbase：分布式海量存儲資料庫

zookeeper：分布式協調服務

flume：分布式日志采集工具

sqoop：資料導入導出工具

mahout：機器學習算法庫

oozie/azkaban:工作流排程平台

分布式思想

分而治之，處理海量資料。比如，hdfs檔案系統，通過多台機器存儲檔案。後續在學習中需要逐漸培養這種思維方式。

Hadoop筆記大資料入門大資料大資料筆記

上一篇: Python入門篇（下）4 函數5 解析式6 總結

下一篇: PySpark之Spark Core調優《六》一、WEBUI-Historyserver二、序列化三、廣播變量四、記憶體管理五、資料本地性

繼續閱讀