大資料平台網站日志分析系統

2021-11-16 08:45:48

1：大資料平台網站日志分析系統，項目技術架構圖：

2：大資料平台網站日志分析系統，流程圖解析，整體流程如下：

　　ETL即hive查詢的sql;

　　但是，由于本案例的前提是處理海量資料，因而，流程中各環節所使用的技術則跟傳統BI完全不同:

　　　　1) 資料采集：定制開發采集程式，或使用開源架構FLUME

　　　　2) 資料預處理：定制開發mapreduce程式運作于hadoop叢集

　　　　3) 資料倉庫技術：基于hadoop之上的Hive

　　　　4) 資料導出：基于hadoop的sqoop資料導入導出工具

　　　　5) 資料可視化：定制開發web程式或使用kettle等産品

　　　　6) 整個過程的流程排程：hadoop生态圈中的oozie工具或其他類似開源産品

3：在一個完整的大資料處理系統中，除了hdfs+mapreduce+hive組成分析系統的核心之外，還需要資料采集、結果資料導出、任務排程等不可或缺的輔助系統，而這些輔助工具在hadoop生态體系中都有便捷的開源架構，如圖所示：

4：采集網站的點選流資料分析項目流程圖分析：

5：流式計算一般架構圖：

待續......

繼續閱讀