对一些应用场景而言,需要实时收集公网数据,例如移动端,html网页,pc、服务器、硬件设备、摄像头等实时数据进行处理。
公网有移动端、外部服务器、网页和设备数据进行采集。采集完成后需要进行实时计算、数据仓库等数据应用。
由kafka不提供resful协议,更多是在集群内使用。因此一般需要架设nginx服务器做公网代理,再通过logstash、或api通过nginx写kafka等消息中间件。
需要设施为:
设施
数目
配置
作用
价格
ecs服务器
2台
1核2gb
前端机、负载均衡,互备
108 元/台*m
slb
1台
标准
按量计费实例
14.4 元/month (租赁) + 0.8元/gb (流量)
kafka / zk
3台
数据写入并处理
通过mobile sdk、logtail、web tracking js直接写入loghub endpoint。
loghub
实时数据采集
场景1:一天10gb数据采集,大约一百万次写请求。( 这里10gb是压缩后,实际前数据大小一般为50gb-100gb左右)
场景2:一天1tb数据采集,大约一亿次写请求
从以上两个场景可以看到,使用loghub进行公网数据采集成本是非常有竞争力的。除此之外,和方案1相比还有其他优势:
弹性伸缩:mb-pb/day 间流量随意控制
丰富权限控制:通过acl控制读写权限
支持https:传输加密
日志投递免费:不需要额外开发就能与数据仓库对接
详尽监控数据:让你清楚业务情况
丰富sdk与上下游对接:和kafka一样拥有完整的下游对接能力,和阿里云及开源产品深度整合