ETL的簡單了解
ETL(資料倉庫技術) E(Extract抽取)T(Transform轉換)L(load加載)
DW(資料倉庫)
DSS(決策支援系統)
OLAP(線上分析處理)
DM(資料挖掘)
BI(商業智能)
ETL資料倉庫技術
實時計算名額:
我們的實時項目之中需要分許哪些名額
流量分析(新增,pv(浏覽量),uv(網站獨立訪客),事件分析(浏覽,包括,點贊,評論,分享,關注))
活動分析(拉新活動,尋寶(曝光,點選,參與,優惠,),呼喚朋友(曝光,點選,生成二維碼,掃碼進入注冊頁),優惠券(曝光,領取,使用,優惠金額))
銷售分析(下單,支付成功,支付失敗,支付管道,各種各樣的次元)
測流輸出(side outputs)
功能
1.拆分資料
2.擷取遲到的資料
我們既要做離線的也要做實時的
當資料入洪水般湧來,我們需要用到kafka來将資料控制住,因為kafka就是為海量數而生的,
kfka支援高并發高吞吐,這這方面kafka比hdfs還要強!!!
1.我們先用flume将資料采集到kafka裡面去做實時運算,
2.我們還想做離線的就繼續用flume将kafka傳入hdfs中,
公司面試描述 kafka:
(老版本)我們原來flume使用agent級聯方式,解決了一些問題老保證資料安全高效,
(新版本)但是從flume1.7版本之後,我們采用了flume的kafkachannal直接把資料落到
kafka裡邊,不想flume向蜘蛛網一樣在很多台機器上搞flume比較浪費資源,
實時的ETL處理離線資料落地到hdfs中