天天看點

ETL的簡單了解

ETL的簡單了解

ETL(資料倉庫技術) E(Extract抽取)T(Transform轉換)L(load加載)

DW(資料倉庫)

DSS(決策支援系統)

OLAP(線上分析處理)

DM(資料挖掘)

BI(商業智能)

ETL資料倉庫技術

實時計算名額:

我們的實時項目之中需要分許哪些名額

流量分析(新增,pv(浏覽量),uv(網站獨立訪客),事件分析(浏覽,包括,點贊,評論,分享,關注))

活動分析(拉新活動,尋寶(曝光,點選,參與,優惠,),呼喚朋友(曝光,點選,生成二維碼,掃碼進入注冊頁),優惠券(曝光,領取,使用,優惠金額))

銷售分析(下單,支付成功,支付失敗,支付管道,各種各樣的次元)

測流輸出(side outputs)

功能

1.拆分資料

2.擷取遲到的資料

我們既要做離線的也要做實時的

當資料入洪水般湧來,我們需要用到kafka來将資料控制住,因為kafka就是為海量數而生的,

kfka支援高并發高吞吐,這這方面kafka比hdfs還要強!!!

1.我們先用flume将資料采集到kafka裡面去做實時運算,

2.我們還想做離線的就繼續用flume将kafka傳入hdfs中,

公司面試描述 kafka:

(老版本)我們原來flume使用agent級聯方式,解決了一些問題老保證資料安全高效,

(新版本)但是從flume1.7版本之後,我們采用了flume的kafkachannal直接把資料落到

kafka裡邊,不想flume向蜘蛛網一樣在很多台機器上搞flume比較浪費資源,

實時的ETL處理離線資料落地到hdfs中

繼續閱讀