天天看點

聚水潭是如何基于AnalyticDB for PostgreSQL 構築海量實時數倉平台的聚水潭資料倉庫業務介紹聚水潭數倉演進及解決方案聚水潭數倉“一路向北”遷移及雙十一保障AnalyticDB for PostgreSQL支撐聚水潭大規模數倉的核心技術AnalyticDB for PostgreSQL 産品技術展望

聚水潭資料倉庫業務介紹

上海聚水潭網絡科技有限公司成立于2014年。聚水潭建立之初,以電商SaaS ERP切入市場,憑借出色的産品和服務,快速獲得市場領先地位。随着客戶需求的不斷變化,如今聚水潭已經發展成為以SaaS ERP為核心,集多種商家服務為一體的SaaS協同平台,為全國33萬多家電商企業提供全面的資訊化解決方案。

來自阿裡巴巴旗下商家服務市場的最新資料顯示,聚水潭已是企業ERP類目中使用商家數最多的軟體。自雙十一購物節誕生以來,團隊經曆了每一次電商大促的考驗,盡管每年承載單量成幾何倍數增加,聚水潭系統依然保持平穩、安全和順暢地運作。2019年11月11日,聚水潭系統處理訂單總量達 2.5億單,成交額超400億元。

基于阿裡雲的ECS和資料庫産品,聚水潭建構了一整套具有競争力的電商SaaS平台,為商家提供訂單管理、倉儲管理、分銷管理和協同供應鍊等功能。并且基于财務和經營資料,為商家提供快速經營報表、分析、測算工具系統。阿裡雲資料庫為其提供了多元化的資料庫服務。其中

AnalyticDB for PostgreSQL

(簡稱 ADB PG)分析型資料庫支撐了核心資料倉庫的ETL作業、CRM系統和線上分析報表業務,整體資料量達到 200TB+,每天超過354萬任務運作。過去幾年年來,ADB PG支撐了多次電商大促考驗,2019年雙十一期間聚水潭數倉日資料增量5.6TB,平均寫入TPS 208萬,全程平穩,零業務異常。

聚水潭數倉演進及解決方案

聚水潭在資料倉庫方面,從無到有探索出一整套符合電商SaaS平台的資料倉庫架構,其資料倉庫演進經曆了從原始期到成熟期的4個階段:

  • 原始期(2014年~2016年4月):公司初創期間,資料庫以服務業務系統為主;
  • 探索期(2016年4月~2016年9月):業務規模達到一定程度,開始有資料倉庫需求,使用業務資料庫承擔部分資料倉庫功能,随着業務的增長,業務系統和數倉互相影響;
  • 自建期(2016年9月~2018年3月):基于開源Greenplum建構資料倉庫,首先探索了數倉大庫模式,但由于商家衆多,且增長速度快,把商家分攤到中等數倉庫,在商家增長的同時添加中等數倉庫個數方式更符合業務邏輯和業務發展;
  • 成熟期(2018年3月~今):資料庫全面擁抱阿裡雲,資料倉庫全部采用ADB PG建構,ADB PG承載了離線批處理和線上分析查詢等業務。

聚水潭數倉“一路向北”遷移及雙十一保障

每年雙十一對電商平台是一次全面系統穩定性考察、也是易用性和性能的最好練兵場。阿裡雲聚石塔電商雲平台在2019年8月啟動“一路向北”遷移,将華東機房服務整體搬遷到張北,提供更大擴充和高成本效益服務。聚水潭ADB PG數倉在遷移過程中,即開始了雙十一的規劃。在“一路向北”準備期間,對聚水潭三十多個ADB PG執行個體進行了水位摸底、瓶頸分析和雙十一業務預期調研,對業務量大、增長迅速的執行個體進行了針對性調整及擴容。

針對雙十一當天增量資料暴增的情況,在雙十一前對離線批處理和線上報表業務進行了壓測,壓測在變配/擴容/新購執行個體的基礎上進行,壓測效果滿足業務需求。此外,ADB PG在雙十一前還進行了執行個體備份巡檢、Xid巡檢、磁盤容量巡檢、CPU巡檢等,確定聚水潭雙十一生産執行個體的萬無一失。同時雙十一當天及第二天派工程師到客戶現場進行重點保障。目前聚水潭共計有ADB PG三十多個執行個體,總計1348 CPU核資源。

聚水潭是如何基于AnalyticDB for PostgreSQL 構築海量實時數倉平台的聚水潭資料倉庫業務介紹聚水潭數倉演進及解決方案聚水潭數倉“一路向北”遷移及雙十一保障AnalyticDB for PostgreSQL支撐聚水潭大規模數倉的核心技術AnalyticDB for PostgreSQL 産品技術展望

AnalyticDB for PostgreSQL支撐聚水潭大規模數倉的核心技術

阿裡雲AnalyticDB for PostgreSQL為采用MPP架構的分布式叢集資料庫,完備支援SQL 2003,高度相容Oracle文法,支援PL/SQL存儲過程,觸發器,支援标準資料庫事務ACID。ADB PG通過行存儲、列存儲、多種分區表和索引等機制,可以支援海量資料的線上傳遞分析,也支援ETL批處理任務。如下是支援聚水潭海量資料倉庫業務的關鍵技術點:

  1. 高壓縮比列存儲

    ADB PG支援資料按列存儲或按列存儲。對于頻繁更新的資料,建議采用行存儲,而對于少量更新的大寬表,可以采用列存儲。列存儲除了可以實作高性能的全表聚合外,還具備存儲的高壓縮比。在聚水潭的資料倉庫裡,列存儲資料普遍達到4倍以上的資料壓縮率,進而極大的節省空間,降低成本。

  2. 複雜SQL優化

    核心資料倉庫的ETL過程,往往都是複雜的多表關聯聚合,最優的執行路徑會帶來數量級上的性能提升。ADB PG具備完備的CBO代價優化器,同時Cascade的SQL優化架構,可以很好的将RBO規則優化同CBO代價優化互相結合,進而指定最優的分布式執行計劃,保證ETL的執行性能。

  3. 高性能執行

    ADB PG支援多種計劃機制,包括支援表按區間或者值進行分區,支援标準BTree索引,Bitmap位圖索引等,進而保證高性能的分析計算性能。

AnalyticDB for PostgreSQL 産品技術展望

ADB PG 2019年底會上線新一代向量化計算引擎,對于标準TPC-H OLAP benchmark 查詢性能提升1倍以上。目前公測中的最新版本ADB PG 6.0,HTAP能力大幅增強,标準TPC-C OLTP benchmark 支援 20w tpmC,進而對混合複雜場景,高并發 QPS 場景,性能有了質的提升。ADB PG 目前推出一進制試用一個月活動,基于其完備功能,卓越性能,是阿裡雲平台上快速建構海量實時數倉的最優選擇。

https://www.aliyun.com/product/gpdb