天天看點

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

一、淺談雲原生

(一)雲原生,是未來使用雲的标準方式

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

我認為雲原生是未來使用雲的标準方式,雲計算資源無處不在、取之不盡、用之不竭,不用關心雲資源在哪裡、有多少。就像今天我們使用自來水一樣,沒有⼈會費盡心思考慮水從哪裡來。

(二)阿裡雲全面引領雲原生分布式資料庫發展方向

阿裡雲在雲原生資料庫領域做了多年的實踐、嘗試與探索,與開發者一起成長。我們認為接下來雲原生資料庫必須關注和發展的領域有以下五個:

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

1)雲原生分布式

将雲原生和分布式技術深度融合,将Share Nothing、Share Storage、Share Everything架構深度融合。

2)智能化

利用AI、機器學習的技術,讓資料庫系統能夠實作自動駕駛的能力,讓開發者可以更好地管理和使用資料庫的服務,如自動調參、索引推薦、異常檢測等。

3)安全可信

安全可信的能力十分重要,比如說如何確定資料是全鍊路的、加密的、安全的,在存儲、傳輸、計算過程中都能夠提供安全可信的能力。

4)在離線一體化

減少資料鍊路,資料從線上處理、到線上分析、到離線的存儲,能否提供一體化的體驗,讓開發者可以更簡單、更便捷地通路和處理資料。

5)物聯網多模

面對AIOT、物聯網、車聯網的蓬勃發展,能否打造一個面向開發者與應用的物聯網多模的資料庫。

以上是我們認為接下來非常重要的五個方向,也正因為在這些方向的耕耘,阿裡雲在去年獲得了Gartner全球資料庫上司者的突破。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

二、阿裡雲資料庫 – 資料管理生命周期

相信對于任何一個開發者而言,在資料層面最關心的是資料管理生命周期。下面站在開發者的視角,闡述資料的全鍊路生命周期到底是什麼。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

第一步是資料的生産和內建,在這一步如何更高效地做資料內建、資料清洗、資料傳輸、資料備份。當做完這步以後,下一步是資料的實時處理,這裡面就是我們非常熟悉的傳統關系型資料庫、線上交易、OLTP等。緊接着就是資料分析和發現,使用者如何做資料脫敏、資料的血緣關系等。

以上就是資料管理的生命全周期,我們在上面建構不同的解決方案,和開發者、合作夥伴一起面向應用、行業、客戶去打造最終的Killer APP。

下面就從生命周期的各個階段來闡述一下我們為開發者提供了哪些工具,開發者基于這些工具可以做哪些事情。

(一)資料生産與內建

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

資料生産與內建是資料的第一生命周期,就像新生兒一樣,資料來到這個世界必須要經曆采集,然後是存儲和處理。

如上圖所示,在這個過程中阿裡雲提供了DTS(Data Transmission Service),支援17種以上不同的資料源,可以做實時增量或者全量的同步,讓應用非常簡潔地實作資料從多元異構的資料源到多元異構的目标端實時的資料同步。

DBS可以實作跨雲的備份、雲上雲下資料備份的統一,讓資料在多雲多端之間無縫流動。

DMS(Database Management Service)可以幫助使用者做任務編排、資料分析、血緣分析等一系列事情。

以上構成了阿裡雲在資料生産和內建的基礎能力。

(二)資料實時處理

資料生産和內建之後是資料的實時處理。

作為開發者,我們最關心的就是確定在任何情況下,線上交易場景的應用永遠線上、資料永遠不丢失,在這裡我們提供了不同的選擇。

1)雲資料庫 RDS:提供企業級資料庫自治能力

首先,阿裡雲提供自己的雲資料庫RDS。

每個雲廠商都有RDS,阿裡雲的RDS和其他RDS有什麼不同呢?

發展到雲原生資料庫2.0,阿裡雲RDS最大的特點就是提供企業級的資料庫自治能力(Autonomous Database Service)。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

首先,通過Kubernetes建構一個雲原生的管控平台,所有的管控能力都進行了微服務化和容器化部署,這樣可以屏蔽底層多元異構的資源,為開發者提供一個雲原生的開發環境和部署環境。

在這個上面,我們利用AI和Machine Learning的技術,建構了自動駕駛資料庫平台。為開發者提供了許多能力,比如自動壓測,我們可以自動生成壓測資料,讓它的工作負載與在真實環境幾乎一樣,這樣開發者可以更好地調測線上系統。另外,我們提供了索引推薦、參數調優等一系列自動化自治服務能力。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

此外,困擾開發者的許多問題,比如線上應用運作速度變得很慢,線程池被打滿等,通過DAS(Database Autonomy Service)可以幫助開發者更快更好地發現與解決。

2)雲原生關系型資料庫 PolarDB

除了阿裡雲RDS之外,雲原生資料庫2.0最核心的能力之一就是雲原生關系型資料庫PolarDB。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

為了讓開發者能夠更好地在PolarDB上開發應用,我們確定PolarDB 100% 相容 MySQL、100% 相容 PostgreSQL、高度相容 Oracle 文法,讓開發者實作輕松上雲。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

很多企業和開發者有向全球部署的需求,比如線上教育、遊戲,需要我們的應用能夠就近服務使用者,阿裡雲推出了全球部署的能力,稱為Global Database。這表示PolarDB可以實作跨AZ(Available Zone)的部署,實作RPO等于0,非常低的RTO。通過跨AZ的能力資料實時同步,可以實作使用者在開發者的應用上就近通路。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

為了讓開發者更好地體驗到阿裡雲的産品,我們推出了I/O帶寬免費、成本效益更高的PolarDB執行個體,價格僅為其他雲廠商雲原生資料庫的30%—40%。

除此之外,我們還進行了性能測試。

我們用開發者非常熟悉的SysBench,連接配接事務處理、讀寫混合測試,測試了CPU 密集型和I/O密集型。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

如上圖所示,我們對比了PolarDB和CPU密集型、I/O密集型兩個雲原生資料庫在SysBench上的标準性能測試,可以看到Polar DB在兩種不同工作負載的情況下都展現出非常優異的性能。

3)雲原生分布式資料庫PolarDB-X

開發者經常面臨海量資料高并發、超高并發的場景。針對這種場景,阿裡雲推出了PolarDB-X,即PolarDB的分布式版本,也就是将雲原生架構存儲計算分離,上面再建構一層架構來支援一體化分布式資料庫。

PolarDB-X支援海量高并發、全局二級索引、HTAP複雜查詢、分布式事務、線上彈性擴充。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

以上圖的全局二級索引為例,它支援ACID,這樣讓開發者可以更關注業務應用的開發,而不需要關注分庫、分表這樣複雜的邏輯。

我們用X-Paxos來支援兩個資料副本、一個日志副本,而且我們的三副本可以做到跨AZ部署、支援同城跨機房的RPO等于0。

(三)資料分析與發現

實時資料庫處理之後,當積累了大量的交易資料,如何在資料裡面發現資訊?這就來到了資料分析和發現階段。

雲原生資料倉庫AnalyticDB(簡稱ADB)是雲原生架構,計算存儲分離,計算資源按需彈性,相對傳統方式,成本可以下降3倍。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

我們在這種雲原生的架構上實作了冷熱資料分層,1TB可以低至114元/月,一份存儲多種計算是未來資料分析領域發展的大趨勢,用一個存儲多種計算引擎可以讓我們适應工作負載,到底是離線的ETL、還是線上的互動式分析,整體成本可以大幅度下降。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

利用前文的這些技術,可以幫助開發者實作在離線一體化的開發和應用,支援離線ETL以及線上的互動式分析,本質上就是将MTB架構和BSP模型完美地結合在一起。

我們也高度相容生态,并且我們很快會推出Spark相容版,将這些開源的生态在我們的雲原生數倉ADB裡面完美結合,實作基于負載的智能化排程和混合應用的支援。

(四)資料開發和管理

最後是資料開發和管理。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

我們面向資料庫開發者提供一站式的線上資料平台,阿裡雲的開發者社群支援了幾十萬資料庫開發者利用DMS的能力,通路和管理多元異構的資料庫資源。

DMS支援開發者們所有耳熟能詳的資料庫,從阿裡雲的PolarDB、PolarDB-X、RDS、AnalyticDB等,再到MySQL、Oracle、SQL Server等。

接入以後,它提供資料資産、資料庫設計、資料庫開發、資料內建、資料服務等一站式的能力,幫助開發者實作資料化運維、容災/多活、T+1/實時/歸檔、資料集中處理、BI報表、多元分析等能力。

三、阿裡雲資料庫開源釋出

(一)阿裡雲資料庫産品開源路徑

阿裡雲作為全球雲原生資料庫的上司者,将成為第一家宣布核心的雲原生資料庫技術進行開源的雲廠商,邀請開發者一起共建雲原生資料庫2.0。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出
李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

作為全球資料庫上司者,我們将雲原生資料庫PolarDB for PG Paxos高可用叢集版開源,目前在Github上開源公開通路。

在9月份,我們會推出基于HLC混合時鐘的高擴充分布式版本,在明年會推出Share Nothing的Sharding和插件化版本,在MySQL生态很早就開源了RDS AliSQL,如今做一個重磅更新,RDS會推出RDS GalaxySQL,之後會推出Paxos高可用性版,然後是雲原生的分布式版。

(二)阿裡雲資料庫開源計劃:打造雲原生分布式資料庫生态

我們看一下具體做哪些事情?

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

上圖中是我們為MySQL和PG生态兩大社群準備開源的元件。

資料庫正在加速雲化,雲原生以及分布式技術正在重塑資料庫整個技術棧。阿裡雲在自身網際網路業務和雲資料庫服務有豐富的實踐經驗,在高可用、分布式、雲原生、存計分離有技術積累。這些技術以元件和系統的方式開放出來,與開源社群一起共建雲原生分布式資料庫生态。所有開源的元件都采用對開發者最友好的協定,遵循Apache Version 2.0協定,歡迎開發者和我們一起共建全球領先、有中國特色的雲原生資料庫2.0社群。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

比如通過開源的PolarDB for PG版本,利用X-Paxos協定,幫助開發者快速實作RPO等于0,相容及高可用資料庫。抛棄傳統的主備模式,走向三節點的模式,所有開源的元件都是即插即拔即用,讓開發者快速享受到PolarDB的能力,并且基于現有的PG、MySQL生态持續發展,歡迎大家加入雲原生資料庫2.0的開源社群。

李飛飛演講實錄 | 雲原生資料庫2.0:一站式全鍊路資料管理與服務一、淺談雲原生二、阿裡雲資料庫 – 資料管理生命周期三、阿裡雲資料庫開源釋出

源碼開放位址:

https://github.com/alibaba/PolarDB-for-PostgreSQL

【相關閱讀】

阿裡雲開源PolarDB資料庫,與社群共建雲原生分布式資料庫生态 雲原生資料庫 2.0:一站式全鍊路資料管理與服務