天天看点

ETL的简单理解

ETL的简单理解

ETL(数据仓库技术) E(Extract抽取)T(Transform转换)L(load加载)

DW(数据仓库)

DSS(决策支持系统)

OLAP(在线分析处理)

DM(数据挖掘)

BI(商业智能)

ETL数据仓库技术

实时计算指标:

我们的实时项目之中需要分许哪些指标

流量分析(新增,pv(浏览量),uv(网站独立访客),事件分析(浏览,包括,点赞,评论,分享,关注))

活动分析(拉新活动,寻宝(曝光,点击,参与,优惠,),呼唤朋友(曝光,点击,生成二维码,扫码进入注册页),优惠券(曝光,领取,使用,优惠金额))

销售分析(下单,支付成功,支付失败,支付渠道,各种各样的维度)

测流输出(side outputs)

功能

1.拆分数据

2.获取迟到的数据

我们既要做离线的也要做实时的

当数据入洪水般涌来,我们需要用到kafka来将数据控制住,因为kafka就是为海量数而生的,

kfka支持高并发高吞吐,这这方面kafka比hdfs还要强!!!

1.我们先用flume将数据采集到kafka里面去做实时运算,

2.我们还想做离线的就继续用flume将kafka传入hdfs中,

公司面试描述 kafka:

(老版本)我们原来flume使用agent级联方式,解决了一些问题老保证数据安全高效,

(新版本)但是从flume1.7版本之后,我们采用了flume的kafkachannal直接把数据落到

kafka里边,不想flume向蜘蛛网一样在很多台机器上搞flume比较浪费资源,

实时的ETL处理离线数据落地到hdfs中

继续阅读