天天看点

全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

作者:dbaplus社群

全球数字化带来的海量数据,给企业的数据存储和分析带来了越来越不可忽视的挑战。随着各行各业纷纷借力云计算技术,许多困难已逐渐得以克服,但如何从中挖掘出更实用、即时和可访问的商业智能隐藏的巨大潜力,仍需要我们不懈地上下求索。为此,第八届DAMS中国数据智能管理峰会特别精选以下大数据领域热门议题,将于3月31日在上海与大家一起进行深度探讨。

DAMS中国数据智能管理峰会

全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

时间:2023年3月31日

地点:上海龙之梦大酒店(上海市长宁区延安西路1116号)

指导单位:上海市软件行业协会、上海市计算机行业协会、中国信息通信研究院云大所

主办单位:dbaplus社群

报名地址:https://www.bagevent.com/event/8100960?bag_track=TT

大数据主题看点

  • 腾讯、京东、网易、中国电信、携程、B站、爱奇艺、快狗打车、中国平安、光大银行、微众银行、丹诺德软件、复旦大学等产学研界技术领跑单位,都在探索哪些大数据新技术应用?
  • 背负越来越沉重的海量数据,如何踏上实时且灵活的高速列车?
  • 如何在合规、高效、可重用的前提下,充分发挥数据价值?
  • 如何建设面向未来的数据仓库与数据湖,以及两者融合的湖仓一体架构?
  • 云时代下,如何通过存算分离、离在线混部等设计,满足高并发、高可用、高性能的需求?

演讲嘉宾及议题

全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

保险数据呈现大规模、多样性的极速增长,看数用数也愈加要求高时效和高精准,但大多数企业数据应用方式仍较为传统,用户找数取数难,数据化运营少。本次分享将具体介绍以下内容:

  1. 为应对多变的业务数据时效诉求和数据离散管理难,我们如何打破数据湖与数仓间的壁垒,构建实时的湖仓一体架构;
  2. 如何通过湖仓一体架构,使割裂数据融合统一,减少数据分析中的搬迁,实现统一的数据管理,同时增强业务数据时效,更好为业务赋能。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

时序数据分析和挖掘是工业大数据处理的重要环节,现有时间序列数据库主要支持数据快速读写和简单聚集查询,通用时序分析工具主要关注预测和异常检测等单一分析功能,领域时间序列分析工具支持更丰富的分析手段,但不具有数据库能力。本次分享将介绍团队在工业时间序列管理和分析系统方面的实践探索,具体包括以下内容:

  1. 介绍工况切分、关联分析等若干典型的工业时序分析算法;
  2. 从数据管理、算法库、分析流程搭建等方面介绍系统的整体架构和核心模块。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

介绍基于K8S平台进行离线计算集群与在线应用集群的资源混部的技术方案,具体包括以下内容:

  1. Yarn on K8S;
  2. 云原生网络模型;
  3. 统一资源调度;
  4. 大数据平台自动化运维管理。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

介绍网易严选在数据治理的方法论和落地实践,通过对整个生命周期的数据、任务、服务组件的治理 ,保障数据稳定、高质量地进行生产,并推进整体资源优化,以及大数据平台的演进,具体包括以下内容:

  1. 如何提升数据体系的可观测性、可运维能力以及稳定性;
  2. 如何更高效、低成本地进行数据治理,发现和减少数据系统的腐化问题。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

平安集团建设数据中台的目的,一方面是整合内外数据能力,形成合力更全面立体高效地赋能全业务;另一方面是建设合规高效的数据管理及运营体系,加强对数据资产的管控和治理,保证数据使用的合规安全。本次分享内容具体如下:

  1. 当前数据合规管理的现状和问题;
  2. 解读国家和监管法律法规对责任主体,在数据确权、数据资产管理、数据使用方面的要求;
  3. 基于合规底线框架,如何构建企业数据管理和运营体系,高效促进数据要素的流动;
  4. 数据管理和运营体系需要哪些技术平台支撑,如何设计规划。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

湖仓一体技术可以为业务带来原先Hadoop数仓所无法提供的能力,包括流批一体架构、行级更新、schema evolution、更为丰富的查询优化等。腾讯自2020年开始投入该领域,为业务带来新的能力。本议题将分享以下内容:

  1. 主流数据湖技术(Iceberg、Hudi、Delta Lake)的能力和适用场景,以及如何在业务场景中使用湖仓一体技术代替原有组件;
  2. 腾讯内部的业务如何使用湖仓一体技术改造原有架构,带来降本增效;
  3. 介绍腾讯在做的实时湖仓技术,将湖仓一体从准实时提升到实时的实践。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

一、介绍数据治理体系顶层设计:

  1. 数据治理体系的五大要素;
  2. 翼支付数据治理方法论——“二三四法则”;

二、分享翼支付数据治理实践:

  1. 数据治理的效益评价设计;
  2. 核心数据链路治理;
  3. 数据规范设计与落地;
  4. 数据治理平台体系建设。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

云原生时代下,提供可快速交付、可弹性伸缩的多维分析服务,同时满足高可用、高性能的诉求已经成为业界共同发展的方向。本次分享将主要介绍京东零售多维分析服务在云原生建设过程中的经验、思考与展望,具体包括以下内容:

  1. OLAP云原生建设思路;
  2. 存算分离选型与落地;
  3. 智能化运维实践。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

主要介绍一种新型的数据纺织架构,帮助企业摆脱传统数据管理及消费模式的束缚,释放更多生产力,分享具体包括以下内容:

  1. 如何利用元数据逻辑架构搭建的最新一代数据中台,使数据贴近数据源进行计算、消费及实时呈现相关数据报表;
  2. 企业如何利用便捷的数据分享方式,打通行业上下游的物理瓶颈,达到数据协作的功效;
  3. 如何最大化实现数据的内在价值。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

主要介绍金融级实时消息服务架构的演进过程,分享具体包括以下内容:

  1. 如何实现复杂平台架构拆分,将业务逻辑与数据平台逻辑解耦,构建统一的消息总线服务;
  2. 在构建消息总线服务过程中,如何对周边生态进行扩展,实现高效的监控、统一的SDK封装,以及如何引入Schema Registry解决数据耦合的问题;
  3. 后续进一步建设金融级消息总线服务的重点计划。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

湖仓一体是近年非常火的趋势,如何保持湖的灵活性,同时提供仓的高效分析效率,是一个亟待解决的问题。本次分享主要介绍bilibili在OLAP平台上遇到的挑战,以及湖仓一体的架构设计,具体包括以下内容:

  1. 湖仓一体架构的好处;
  2. 如何基于Iceberg建设湖仓一体架构;
  3. 在数据分布、索引、预计算等多方面增强优化,提升数据分析效率,降低分析成本的实践经验。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

介绍微众银行在数据管理和应用方面的思考和沉淀,通过对数据资产从数据的生成、加工、管理、应用等全链路的治理,更好、更高效地对业务赋能、对成本把控,节省数据管理人力投入,更高要求地对数据进行价值挖掘和应用,具体包括以下内容:

  1. 微众银行大数据IT架构;
  2. 大数据应用于金融行业面临的一系列挑战;
  3. 微众银行数据仓库在监管高要求下的架构设计、数据管理、数据应用的探索;
  4. 微众银行在海量实时数据应用上的破局之道。
全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

快狗数据仓库经过多年建设迭代,积累了丰富的落地经验,本次分享将会和大家一起交流快狗数据仓库的技术建设和未来演进方向,具体包括以下内容:

  1. 数据仓库的技术架构选型;
  2. 数据仓库如何更精细化地管理企业数据资产;
  3. 数据仓库如何更好地赋能企业业务发展;
  4. 如何做好面向未来的数据建设。

*更多大数据主题演讲嘉宾及干货议题在路上,持续更新……

峰会议程

全链路数据治理、湖仓一体、存算分离、离在线混部等探索与实践

报名地址:https://www.bagevent.com/event/8100960?bag_track=TT

继续阅读