天天看点

技术创业难?看汇合营销如何玩转大数据与机器学习

自开始大数据创新案例探索之后,汇合营销(杭州汇江容海网络有限公司)是笔者走进的第二家公司,在拜访过程中, 通过ceo周鹏与cto欧阳明对笔者了解到,在这个技术普惠的时代,汇合营销的发展之路铺设与架构。

<b></b>

<b>汇合营销大数据规模与挑战</b>

对于任何一家创业公司来说,成本与-效率都是一个不得不考虑的问题——周鹏。

汇合营销主要提供汇合dsp和汇合dmp两个平台,为电商为主的广告主提供推广服务。此外,在接受商家的精准化需求之后,根据具体的业务场景,为电商广告主提供精准化的营销广告。在整个过程中,周鹏表示,构建一个完善且能够持续服务的大数据平台成为关键,这需要大量的人力与物力;此外,这个平台还需要有足够的“弹性”来满足业务:既要撑得住双11期间的流量峰值,又要能够在平时做好运维成本控制。

峰值期间,汇合营销每天需要收集、分析和存储20多亿条的访客浏览轨迹;同时,还需要根据用户需求在亿级日志表中做秒级查询——欧阳明。

纵览汇合营销整个大数据系统,在技术挑战上,欧阳明主要归结于以下三条:

<b>大量的数据统计。</b>汇合营销每天收集到的数据,多的时候一天有20多亿访客浏览轨迹,在dmp业务系统中,需要对每个访客的浏览内容进行分析,打上相应标签并进行统计;同时,数据分析师每天也需要产生各种报表,帮助客户进行广告优化。大量的数据存储、统计和大量的业务需求,这使得开发过程中,既要保证高效率,同时也要降低成本。

<b>实时大数据查询。</b>广告商在后台的推广组选择标签时,系统需要在毫秒级的时间内显示标签的用户量并预估展现量信息,由于用户选择的标签一般都会比较多、条件比较复杂,并且每个标签的用户也可能重复,从而无法在用户选择标签前做预计算,必须每次在亿级日志表中查询,而且要保证平均延迟不超过1秒。

<b>ctr预估。</b>ctr预估能够决定广告的精准程度和带来的收益,是广告竞价系统中一个比较核心的部分。在汇合营销,我们使用业内优秀的大数据框架和机器学习算法,例如场感知分解机模型(ffm)、逻辑回归算法等,来训练收集到的tb级数据,将训练好的模型应用于ctr预估,提升了广告投放的精准度,从而有效提升广告效果。 

因此在考量了技术与资源之后,汇合营销选择了阿里云数加,通过云服务来取得技术与-效率优势,周鹏总结道。

<b>汇合营销大数据系统架构</b>

开发效率与使用门槛促促成了这个基于云的架构,最大程度减少了运维,即开即用,避免资源浪费——欧阳明。

欧阳明表示,数加有完善的大数据解决方案,能够与阿里云其他产品无缝对接。汇合营销使用了数加的大数据套件、odps、datav和分析型数据库,也尝试了机器学习平台。具体参照下方架构图,通过阿里云数加产品确定的边界,整个系统架构非常清晰:

技术创业难?看汇合营销如何玩转大数据与机器学习

现在汇合营销大部分离线统计需求都在大数据套件中开发,将数据使用做到非常简单,只要能够写sql,就可以导出自己需要的报表,满足了大部分的业务需求。此外,分析型数据库能够满足在亿级数据中做毫秒级查询,在数据分析方面,是一个非常不错的工具。在使用数加之前,汇合营销曾搭建了spark和hadoop,但每次数据报表都需要开发人员来导出,而且在维护、资源使用上都需要很好地平衡,使用和维护成本相对比较高。

而数加大大降低了数据使用门槛、提高开发效率,现在汇合营销的数据分析团队(非开发人员)都能够独立完成大部分的数据报表需求。此外,数加的按需计费避免了资源空闲,从年初的对比来看,数加在满足同等业务需求基础上能够减少一半的支出,有效地节约了成本开支,帮助创业型企业快速成长。