天天看点

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

作者:闪念基因

一、概览

如何在营销场景下安全合规的使用数据,维护在线广告商业模型的核心运作,成为当下广告生态中各企业亟需解决的问题。阿里妈妈一直注重对于隐私数据的安全合规使用,最大限度地保护用户隐私和数据安全。继上篇分享阿里妈妈营销隐私计算平台Secure Data Hub(以下简称“SDH”)在集团生产环境的技术方案后(延展阅读:广告营销场景下的隐私计算实践:阿里妈妈营销隐私计算平台SDH),本篇分享阿里妈妈营销隐私计算平台SDH在公有云的技术实现和应用实践,欢迎阅读交流。

二、背景

随着全球主要市场陆续出台个人信息保护政策,互联网生态中的数据安全和用户隐私保护问题变得越发重要且日趋严格。2019年国家将数据纳为“生产要素”,提倡驱动数据流通体现数据价值。2022年“数据二十条”对外发布,加速了数据要素市场发展和数据要素高效流通,形成了数据要素开放共享的新形势。数据要素流通是数据价值释放的本质要求,安全合规是数据有序流通的基本前提,隐私计算技术为解决数据流通问题和数据价值挖掘提供了关键的技术基础和重要的技术支撑。

广告作为互联网最大的商业模式,2022年中国网络广告市场规模突破万亿关卡,2023年预计仍保持12.9%的高速增长,逐步形成一个体量巨大、生态完整的广告营销行业。隐私和数据安全问题对全球广告营销行业产生了巨大冲击和影响,产生了诸如禁止第三方cookie、设备id合规采集使用、数据确权、数据安全合规流通等一系列的问题。在数字广告行业,数据是营销开展的基础,数据流通也会使得数据价值不断放大及提升。考虑到广告和用户数据会分散在广告生态的多个角色内,包括:用户、媒体、广告主、SSP、ADX、DSP、DMP、CDP等,如何解决广告营销场景中数据孤岛和跨域数据流通问题,在保障多方角色数据隐私安全和法务合规的基础上为媒体、广告主和营销参与方提供及时、准确和安全的营销服务,已成为全球广告营销行业敏捷探索的前沿方向和共识。

阿里妈妈营销隐私计算平台SDH是一个面向广告引擎、广告主、三方DSP/DMP等合作方,在隐私安全环境下进行数据融合、隐私计算、联合建模的 Data Clean Room 产品。基于多方安全计算MPC(Secure Multi-Party Computation)、联邦学习FL(Federated Learning)、差分隐私DP(Differential Privacy)等隐私增强计算技术,SDH为品牌提供跨域安全一致的数据决策能力。

三、技术架构

3.1 核心能力

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

3.2 系统架构

SDH公有云系统架构如下:

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

参与角色:

  • 平台方:部署SDH服务,负责基础数据的管理和任务的调度分发,不涉及业务方数据的存储和计算。
  • 业务方:在私域环境中部署SDH计算引擎,负责业务方私域环境中的存储和计算。

功能模块:

  • Console:负责基础数据管理和任务调度分发,不涉及业务方数据的存储和计算。
  • Agent:负责身份认证,并提供实例生命周期管理的API,包括实例的启动、查询、停止等。
  • 计算引擎:负责私域环境中逻辑执行计划的生成和物理执行计划的调度执行。

网络通信:

  • 平台方与业务方:使用公网IP通信,传输元数据访问和任务分发,为单机通信,通信量较小。
  • 业务方与业务方:使用私网IP通信(VPC对等连接),传输业务方间明密文计算数据,为分布式通信,通行量较大。
阿里妈妈营销隐私计算平台SDH在公用云的落地实践

3.3 核心原理

3.3.1 元数据设计

SDH对数据的可用性和可见性按照数据列粒度进行了详细的分层定义,以实现数据“可用不可见”能力:

  • 可用性:关联键列属性、分组键列属性。
  • 可见性:可见属性、哈希可见属性、分组可见属性、聚合可见属性。

3.3.2 执行计划生成

SDH计算引擎基于Flink计算框架实现,在执行计划生成阶段自底向上遍历执行计划,主要包含合法性校验和拆分改写两阶段:

  • 合法性校验:定义完整的数据可用性和可见性推导规则,覆盖Flink内置的Operator算子、系统函数和自定义UDF函数,以验证数据是否满足“表级”和“列级”的隐私保护要求。
  • 拆分改写:自底向上遍历执行计划,根据数据持有方对执行计划染色,对Operator进行拆分改写,将执行计划拆分成若干子图。

3.3.3 密态算子实现

  • Join算子:SDH实现了基于ECDH(Elliptic Curve Diffie–Hellman key Exchange)匿名密钥合意协议的PSI Join密态算子,加密流程如下图所示。在Hash Join的Building、Probing通过ECDH加密完成Join条件中等式真值的判断,同时引入Bloom Filter在Probing阶段实现Join Key的预过滤,以优化Join性能,支持百亿数据规模的隐私求交。
阿里妈妈营销隐私计算平台SDH在公用云的落地实践
  • 不等式运算算子:基于Secret Sharing封装密态比较算子,其中不等式真值的判断由表达式执行引擎执行计算,可在保证计算精度(2的-32次方)的前提下支持亿级数据量的密态比较。
  • 明密文运算单元:基于ECDH、Secret Sharing、HE等密码学技术封装多种类型的密态算子,支持常见的逻辑运算(AND、OR)、关系运算(<、<=、==、!=、>=、>)、算术运算(+、-、*、/),并通过密态算子优化持续提升密文运算单元的计算效率。

3.3.4 隐私安全保护

  • 元数据保护:提供“表级”别的权限控制;
  • 字段级别保护:提供“列级”别的字段可用性和可见性控制,支持针对不同的operator的字段隐私保护属性推导和合法性校验;
  • 数据保护:业务方原始数据不离开本地,平台提供提供完备的数据授权机制,云上服务设置最小化访问控制策略,并支持多层访问鉴权保证数据隔离;
  • 通信保护:基于非对称加密+对称加密完成通信加密,即初始阶段双方使用非对称加密传输随机生成的对称加密密钥,后续采用对称加密方法进行加解密。保障网络传输的数据全部为可见数据。

3.3.5 分布式计算优化

  • 分布式hash join:SDH支持(Shuffle)Hash Join,即两方的数据根据等值条件中的Join Key按相同的规则进行分片且分片数一致,即双方相同Join Key的数据Shuffle后会分布在相同分片ID的Worker上,双方的Worker直接点对点基于Hash Join进行关联。
阿里妈妈营销隐私计算平台SDH在公用云的落地实践
  • 分布式通信优化:双方通信过程均为加密传输,为提升加密性能,采用非对称加密+对称加密的方案,即初始阶段双方使用非对称加密传输随机生成的对称加密密钥,后续通信采用对称加密方法进行加解密。为降低网络传输的开销,通信过程中的数据会组batch传输,并压缩数据以降低网络通信的数据规模。对于逻辑相对复杂的多方安全计算任务,借助谓词下推等优化规则将计算逻辑尽可能的前置,在本地对本方数据提前进行预过滤,从而进一步降低网络通信的数据量

3.3.6 营销分析组件

  • 对外统一的查询API:SDH对外提供统一的轻量化查询API接口,用户可通过提交MPC SQL或调用营销分析组件两种方式进行逻辑查询,其中分析组件可支持自动化MPC SQL rewrite再提交至计算引擎
  • Service内组件集成:营销分析组件集成在SDH的Service内,减少额外的部署和网络打通成本
阿里妈妈营销隐私计算平台SDH在公用云的落地实践

四、部署架构

SDH提供面向不同云环境(阿里云、第三方云、私有云)下的云化部署方案。基于Serverless K8s集群可支持一键式SDH引擎部署,部署轻量,流程简洁,技术对接成本低。同时支持云资源的弹性扩缩容、按量计费。SDH公有云部署方案如下图所示,整体部署流程可概括为:

  1. 云账号准备
  2. 云产品范围申请,配置访问控制
  3. Servicess K8s 集群部署
  4. SDH 引擎部署
  5. VPC对等连接
  6. VPN连通测试(适用于第三方云、私有云部署)
  7. API/分析组件调用测试
阿里妈妈营销隐私计算平台SDH在公用云的落地实践

五、应用案例

5.1 全域消费者资产分析

阿里妈妈联合伊利基于SDH营销隐私平台合力打造了全域消费者资产分析和数字化运营的应用实践案例。通过SDH的隐私增强分析能力连通伊利品牌域外投放人群(综艺回流人群、媒体直投人群等),结合“达摩盘”营销策略中心丰富的“人-货-场”用户标签数据和营销策略分析进行全域资产投产,形成投放策略,最后同步万相台人群超市进行场景投放,保障高价值人群的触达和投放效果。

基于SDH平台提供的PSI和MPC的隐私增强分析计算能力,伊利实现了在数据不出域的前提下,一方人群资产和达摩盘上品牌用户资产进行MPC的联合计算分析,完成一方人群的上翻和全域消费者资产分析,帮助客户完成全域资产沉淀释放营销价值,带来了30%+的全域资产渗透率、购买转化率和ROI的全面提升。

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

5.2 广告跨域营销效果追踪

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

阿里妈妈联合加和科技在隐私计算技术上进行深入合作。利用SDH营销隐私计算平台提供的隐私增强分析计算能力,在保障多方数据隐私安全和数据合规使用的基础上,针对广告投前的跨域用户识别、投中算法联合建模、投后的跨渠道广告效果衡量和全渠道用户资产分析场景进行深入的技术探索,完成了“基于隐私计算的广告跨域营销追踪和全域资产分析项目”的落地实践。解决了广告主跨域用户无法追踪识别、公域广告投放效果无法准确衡量、用户资产分散且数据割裂的实际营销痛难点问题。

基于加和科技持有广告公域投放数据和品牌私域数据,和阿里妈妈持有平台广告投放数据、用户标签数据和电商转化数据。利用SDH的PSI、人群画像、规则型归因等营销分析组件,高效完成双边数据的MPC计算,实现跨域用户的识别和用户旅程追踪。沉淀安全、高效的跨域广告投放效果衡量和全域人群资产分析的解决方案,从而进一步完成跨域广告营销的触达人群特征分析、广告在淘宝和天猫店铺的转化效果追踪衡量和全渠道广告主人群资产分析,提供科学、真实的广告后链路转化和用户特征分析报告,并在数据安全性、分析多样性、计算准确性和数据时效性上较传统的数据授权方案上有显著提升。

该套基于SDH的隐私数据解决方案服务了加和科技ReachMax产品下10+的头部品牌广告主,覆盖美妆、食品、日化等多个行业。帮助广告主提升广告投放的效果、充分挖掘广告数据价值,为商家预算的合理分配提供有力参考,形成“投放→引流→增长→投放”的良性循环。本解决方案已入选2023大数据“星河”优秀案例(延伸阅读:阿里妈妈 x 加和科技隐私计算合作成果入选2023大数据“星河”优秀案例)。

阿里妈妈营销隐私计算平台SDH在公用云的落地实践

六、总结展望

阿里妈妈营销隐私计算平台SDH支持明密文混合复杂任务的分布式数据处理,能够实现包含隐私集合求交、密态关系及算术运算、窗口聚合等20亿/h的计算任务,计算准确率高达2-32。基于EFLS框架支持十到百亿级别样本的FL训练。同时SDH提供SQL的API接口,集成多类通用化营销分析组件,支持多种轻量化云部署方案,进一步降低接入门槛并提供高效的营销隐私计算分析。跨域广告投放效果衡量和全域人群资产分析的解决方案和应用案例,打破了广告营销场景中数据孤岛和跨域数据流通问题,探索建立“可用不可见”的数据要素流通新范式,是隐私计算技术在整个广告行业中数据要素流通的创新性应用。

未来SDH会持续推动广告生态中数据要素安全合规地流通,致力于为品牌提供跨域安全一致的数据决策能力。不断完善Saas产品化能力,持续建设更高计算复杂度的联合统计和建模的隐私增强分析能力,帮助广告主安全、高效地进行广告营销场景下数据处理、投放优化、效果衡量的分析计算和数据建模。

作者:翾逸

来源-微信公众号:阿里妈妈技术

出处:https://mp.weixin.qq.com/s/UemrAjULSEvLoOsbgrwRzA

继续阅读