1:大資料平台網站日志分析系統,項目技術架構圖:
![](https://img.laitimes.com/img/_0nNw4CM6IyYiwiM6ICdiwiIn5GcuYTO3YWYzAzNwYWZlRGZjFTOkVWZkNGN5AjM0gjZkR2NfdWbp9CXt92Yu4GZjlGbh5SZslmZxl3Lc9CX6MHc0RHaiojIsJye.png)
2:大資料平台網站日志分析系統,流程圖解析,整體流程如下:
ETL即hive查詢的sql;
但是,由于本案例的前提是處理海量資料,因而,流程中各環節所使用的技術則跟傳統BI完全不同:
1) 資料采集:定制開發采集程式,或使用開源架構FLUME
2) 資料預處理:定制開發mapreduce程式運作于hadoop叢集
3) 資料倉庫技術:基于hadoop之上的Hive
4) 資料導出:基于hadoop的sqoop資料導入導出工具
5) 資料可視化:定制開發web程式或使用kettle等産品
6) 整個過程的流程排程:hadoop生态圈中的oozie工具或其他類似開源産品
3:在一個完整的大資料處理系統中,除了hdfs+mapreduce+hive組成分析系統的核心之外,還需要資料采集、結果資料導出、任務排程等不可或缺的輔助系統,而這些輔助工具在hadoop生态體系中都有便捷的開源架構,如圖所示:
4:采集網站的點選流資料分析項目流程圖分析:
5:流式計算一般架構圖:
待續......