天天看點

全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

作者:dbaplus社群

全球數字化帶來的海量資料,給企業的資料存儲和分析帶來了越來越不可忽視的挑戰。随着各行各業紛紛借力雲計算技術,許多困難已逐漸得以克服,但如何從中挖掘出更實用、即時和可通路的商業智能隐藏的巨大潛力,仍需要我們不懈地上下求索。為此,第八屆DAMS中國資料智能管理峰會特别精選以下大資料領域熱門議題,将于3月31日在上海與大家一起進行深度探讨。

DAMS中國資料智能管理峰會

全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

時間:2023年3月31日

地點:上海龍之夢大酒店(上海市長甯區延安西路1116号)

指導機關:上海市軟體行業協會、上海市計算機行業協會、中國資訊通信研究院雲大所

主辦機關:dbaplus社群

報名位址:https://www.bagevent.com/event/8100960?bag_track=TT

大資料主題看點

  • 騰訊、京東、網易、中國電信、攜程、B站、愛奇藝、快狗打車、中國平安、光大銀行、微衆銀行、丹諾德軟體、複旦大學等産學研界技術領跑機關,都在探索哪些大資料新技術應用?
  • 背負越來越沉重的海量資料,如何踏上實時且靈活的高速列車?
  • 如何在合規、高效、可重用的前提下,充分發揮資料價值?
  • 如何建設面向未來的資料倉庫與資料湖,以及兩者融合的湖倉一體架構?
  • 雲時代下,如何通過存算分離、離線上混部等設計,滿足高并發、高可用、高性能的需求?

演講嘉賓及議題

全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

保險資料呈現大規模、多樣性的極速增長,看數用數也愈加要求高時效和高精準,但大多數企業資料應用方式仍較為傳統,使用者找數取數難,資料化營運少。本次分享将具體介紹以下内容:

  1. 為應對多變的業務資料時效訴求和資料離散管理難,我們如何打破資料湖與數倉間的壁壘,建構實時的湖倉一體架構;
  2. 如何通過湖倉一體架構,使割裂資料融合統一,減少資料分析中的搬遷,實作統一的資料管理,同時增強業務資料時效,更好為業務賦能。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

時序資料分析和挖掘是工業大資料處理的重要環節,現有時間序列資料庫主要支援資料快速讀寫和簡單聚集查詢,通用時序分析工具主要關注預測和異常檢測等單一分析功能,領域時間序列分析工具支援更豐富的分析手段,但不具有資料庫能力。本次分享将介紹團隊在工業時間序列管理和分析系統方面的實踐探索,具體包括以下内容:

  1. 介紹工況切分、關聯分析等若幹典型的工業時序分析算法;
  2. 從資料管理、算法庫、分析流程搭建等方面介紹系統的整體架構和核心子產品。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

介紹基于K8S平台進行離線計算叢集與線上應用叢集的資源混部的技術方案,具體包括以下内容:

  1. Yarn on K8S;
  2. 雲原生網絡模型;
  3. 統一資源排程;
  4. 大資料平台自動化運維管理。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

介紹網易嚴選在資料治理的方法論和落地實踐,通過對整個生命周期的資料、任務、服務元件的治理 ,保障資料穩定、高品質地進行生産,并推進整體資源優化,以及大資料平台的演進,具體包括以下内容:

  1. 如何提升資料體系的可觀測性、可運維能力以及穩定性;
  2. 如何更高效、低成本地進行資料治理,發現和減少資料系統的腐化問題。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

平安集團建設資料中台的目的,一方面是整合内外資料能力,形成合力更全面立體高效地賦能全業務;另一方面是建設合規高效的資料管理及營運體系,加強對資料資産的管控和治理,保證資料使用的合規安全。本次分享内容具體如下:

  1. 目前資料合規管理的現狀和問題;
  2. 解讀國家和監管法律法規對責任主體,在資料确權、資料資産管理、資料使用方面的要求;
  3. 基于合規底線架構,如何建構企業資料管理和營運體系,高效促進資料要素的流動;
  4. 資料管理和營運體系需要哪些技術平台支撐,如何設計規劃。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

湖倉一體技術可以為業務帶來原先Hadoop數倉所無法提供的能力,包括流批一體架構、行級更新、schema evolution、更為豐富的查詢優化等。騰訊自2020年開始投入該領域,為業務帶來新的能力。本議題将分享以下内容:

  1. 主流資料湖技術(Iceberg、Hudi、Delta Lake)的能力和适用場景,以及如何在業務場景中使用湖倉一體技術代替原有元件;
  2. 騰訊内部的業務如何使用湖倉一體技術改造原有架構,帶來降本增效;
  3. 介紹騰訊在做的實時湖倉技術,将湖倉一體從準實時提升到實時的實踐。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

一、介紹資料治理體系頂層設計:

  1. 資料治理體系的五大要素;
  2. 翼支付資料治理方法論——“二三四法則”;

二、分享翼支付資料治理實踐:

  1. 資料治理的效益評價設計;
  2. 核心資料鍊路治理;
  3. 資料規範設計與落地;
  4. 資料治理平台體系建設。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

雲原生時代下,提供可快速傳遞、可彈性伸縮的多元分析服務,同時滿足高可用、高性能的訴求已經成為業界共同發展的方向。本次分享将主要介紹京東零售多元分析服務在雲原生建設過程中的經驗、思考與展望,具體包括以下内容:

  1. OLAP雲原生建設思路;
  2. 存算分離選型與落地;
  3. 智能化運維實踐。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

主要介紹一種新型的資料紡織架構,幫助企業擺脫傳統資料管理及消費模式的束縛,釋放更多生産力,分享具體包括以下内容:

  1. 如何利用中繼資料邏輯架構搭建的最新一代資料中台,使資料貼近資料源進行計算、消費及實時呈現相關資料報表;
  2. 企業如何利用便捷的資料分享方式,打通行業上下遊的實體瓶頸,達到資料協作的功效;
  3. 如何最大化實作資料的内在價值。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

主要介紹金融級實時消息服務架構的演進過程,分享具體包括以下内容:

  1. 如何實作複雜平台架構拆分,将業務邏輯與資料平台邏輯解耦,建構統一的消息總線服務;
  2. 在建構消息總線服務過程中,如何對周邊生态進行擴充,實作高效的監控、統一的SDK封裝,以及如何引入Schema Registry解決資料耦合的問題;
  3. 後續進一步建設金融級消息總線服務的重點計劃。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

湖倉一體是近年非常火的趨勢,如何保持湖的靈活性,同時提供倉的高效分析效率,是一個亟待解決的問題。本次分享主要介紹bilibili在OLAP平台上遇到的挑戰,以及湖倉一體的架構設計,具體包括以下内容:

  1. 湖倉一體架構的好處;
  2. 如何基于Iceberg建設湖倉一體架構;
  3. 在資料分布、索引、預計算等多方面增強優化,提升資料分析效率,降低分析成本的實踐經驗。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

介紹微衆銀行在資料管理和應用方面的思考和沉澱,通過對資料資産從資料的生成、加工、管理、應用等全鍊路的治理,更好、更高效地對業務賦能、對成本把控,節省資料管理人力投入,更高要求地對資料進行價值挖掘和應用,具體包括以下内容:

  1. 微衆銀行大資料IT架構;
  2. 大資料應用于金融行業面臨的一系列挑戰;
  3. 微衆銀行資料倉庫在監管高要求下的架構設計、資料管理、資料應用的探索;
  4. 微衆銀行在海量實時資料應用上的破局之道。
全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

快狗資料倉庫經過多年建設疊代,積累了豐富的落地經驗,本次分享将會和大家一起交流快狗資料倉庫的技術建設和未來演進方向,具體包括以下内容:

  1. 資料倉庫的技術架構選型;
  2. 資料倉庫如何更精細化地管理企業資料資産;
  3. 資料倉庫如何更好地賦能企業業務發展;
  4. 如何做好面向未來的資料建設。

*更多大資料主題演講嘉賓及幹貨議題在路上,持續更新……

峰會議程

全鍊路資料治理、湖倉一體、存算分離、離線上混部等探索與實踐

報名位址:https://www.bagevent.com/event/8100960?bag_track=TT

繼續閱讀