天天看點

資料庫行業專題研究:信創正當時,國産資料庫發展提速

(報告出品方:華泰證券)

産業概覽:關系型資料庫占主流,分布式時代加速到來

資料庫是資訊系統運作的關鍵基礎。從定義來看,資料庫是按照一定的資料結構組織、存 儲和管理資料的倉庫,在計算機中一般由一個或者一組檔案構成;從本質來看,計算機解 決的是資料計算和資料處理問題,資料庫則是計算機應用系統中的專門管理資料資源的系 統;從架構上看,資料庫作為計算機三大基礎軟體(作業系統、資料庫、中間件)之一, 向下可充分發揮硬體算力,向上支撐上層的應用需求,是資訊系統高效運作的關鍵基礎。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

資料庫軟體的核心是資料庫管理系統。資料庫作為基礎軟體,可面向多種應用,被多個用 戶、程式共享,其中資料庫管理系統(DataBase Management System,DBMS)負責搭 建、處理、維護資料庫的資料及資料間邏輯關系,由外部元件集與核心元件集共同組成:1) 外部元件集:以資料庫配套的獨立支撐軟體為主,例如資料庫驅動;2)核心元件集:一般 可以分為管理元件、網絡元件、計算元件、存儲元件四大子產品。

産業複盤:變革與資料需求相協同,發展邁入後關系型階段

自 20 世紀 60 年代以來,資料庫行業随資訊技術發展而快速演變,主要經曆了三大階段: 1)前關系型階段(1964-1970):1964 年查爾斯·巴赫曼(Charles Bachman)開發出第一 個資料庫管理系統,網狀資料管理系統 IDS(Integrated Data Store)初步成型;随後為解 決阿波羅登月計劃所需的大量資料,1968 年 IMS(Information Management System)系 統作為最早商業化的 DBMS 正式釋出;此階段資料庫主要解決了資料獨立存儲、統一管理、 統一通路的問題,實作了資料與程式分離,但缺乏被廣泛接受的理論基礎; 2)關系型階段(1970-2008):1970 年,員埃德加·科德(Edgar F. Codd)發表《大型共 享資料庫的資料關系模型》,關系型模型理論被初步提出;随後關系型資料庫(Relational Database Management System,RDBMS)誕生,國際标準組織将 SQL 作為國際資料庫 标準語言,并進行标準化,SQL 成為關系型資料庫主流語言并引領變革,Access、MySQL、 PostgreSQL 等大批關系型資料庫誕生,帶動關系型資料庫完成了從理論到實踐的轉換; 3)後關系型階段(2008-至今):随着 Web 2.0 的到來,資料量出現指數增長,傳統關系型 資料庫無法有效對應日新月異的資料類型及業務場景,為更有效地處理海量資料,應對多 樣的資料結構,NoSQL、NewSQL 等非關系型數庫脫穎而出,資料庫邁入第三發展階段。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

根據資料結構、架構模型、業務負載特征的不同,資料庫可劃分為不同類别。為了更清楚 的了解資料庫之間的特性差異,資料庫産品可依照不同标準進行分類,常見的分類依據包 括資料結構、架構模型、業務負載特征、部署方式等,其中資料結構類型是最常用的标準。 1)根據資料結構類型:可分為關系型資料庫、NoSQL 資料庫、NewSQL 資料庫; 2)根據架構模型:可分為集中式資料庫、分布式資料庫; 3)根據業務負載特性:可分為 OLAP 資料庫(分析型資料庫)、OLTP 資料庫(事務型數 據庫)、HTAP 資料庫(混合型資料庫)。

按資料結構分類:關系型、NoSQL、NewSQL

資料庫的資料結構類型随存儲需求變化而不斷拓展。最早的資料存儲需求主要來源于結構 化資料,是以資料庫産品多采用關系型架構,主流産品包括:Oracle、MySQL、PostgreSQL 等;2000 年以後随着網際網路應用的快速普及,産生大量非結構化資料的存儲需求,NoSQL 資料庫快速興起,主流産品包括 Redis、MongoDB 等;後來為解決 NoSQL 資料庫缺乏強 一緻性及事務支援的問題,NewSQL 資料庫逐漸發展,主流産品包括:Spanner、TiDB 等。

1)關系型資料庫

關系型資料庫是由多個二維表所組成的集合。關系型資料庫,是指采用了關系模型來組織 資料的資料庫,資料以行和列的形式進行存儲,這一系列的行和列被稱為表,一組表組成 了資料庫。表格之中每一行通過獨有的主碼(Primary Key)來區分彼此,每一列都擁有統 一的資料類型,外碼(Foreign Key)通常與主碼(Primary Key)一起使用,用于建立表與 表之間的聯系,通過比對外碼以尋找相應的行。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

關系型資料庫具備 ACID 特性,為主流資料庫類型。關系型資料庫嚴格遵循原子性 Atomicity、 一緻性 Consistency、隔離性 Isolation、持久性 Durability(以上簡稱 ACID 特性),在維護 資料庫完整性、資料一緻性方面優勢突出,适用于對資料安全性、事務支援高度要求的應 用場景。1)原子性:為避免不同指令之間的沖突,資料庫中的事務執行被視為原子不可再 分,指令要麼全部成功執行,要麼失敗而保持原狀;2)一緻性:為確定業務邏輯一緻性, 資料庫設定限制與觸發器保證資料庫完整性,任何事務看到的資料總保持一緻;3)隔離性: 資料庫通過加鎖,保證事務之間互相隔離,進而避免髒讀、幻讀等;4)持久性:為避免數 據庫丢失等意外事故,資料庫所有指令都将會被永久儲存,不會被復原。

2)NoSQL(Not Only SQL)資料庫

NoSQL 資料庫嘗試解決關系型資料庫的擴充可用性缺陷。不同于關系型資料庫,NoSQL 資料庫隻遵守 BASE 模型:基本可用 Basically Avaliable、軟狀态 Soft state、最終一緻性 Eventual consistency:1)基本可用:當系統出現故障時,NoSQL 資料庫不像關系型資料 庫一樣進行強制拒絕,而是允許損失部分可用功能或降低響應速度,以保證核心功能可用; 2)軟狀态:在處理資料過程中,允許資料狀态出現暫時不一緻的情況;3)最終一緻性: NoSQL 資料庫隻追求最終的結果一緻,資料處理的過程中暫時不一緻将被允許。NoSQL 資料庫解決了關系型資料庫剛性架構的拓展性缺陷,NoSQL 的動态架構可實作橫向擴充。

NoSQL 資料庫更适用于海量資料的快速讀寫場景。NoSQL 概念早在 1998 年就已經被 Carlo Strozzi 提出,21 世紀初才進入規模化發展階段,主要原因在于 2008 年網際網路進入 Web 2.0 時代,大量非結構化資料出現,資料量呈現指數型增長,傳統的關系型資料在非 結構化資料處理、海量資料快速讀寫、資料庫擴充等方面的劣勢逐漸暴露,是以,基于 BASE 特性的 NoSQL 架構被重新提出并得到快速發展,MongoDB、Redis、HBase 等 NoSQL 數 據庫逐漸進入大衆視野,并實作了在電商、社交網絡、搜尋引擎等領域的應用落地。

常見 NoSQL 資料庫主要包括鍵值型資料庫、列族資料庫、文檔資料庫、圖資料庫: (1)鍵值型資料庫:适用于内容緩存,如會話、配置檔案、參數等。其擴充性高,靈活性 好,大量操作時性能高,但資料無結構化,查詢方法單一; (2)列族資料庫:适用于分布式資料存儲與管理,将同一列資料存在一起,可擴充性強, 查找速度快,複雜性低,但功能局限; (3)文檔資料庫:适用于存儲文檔資料,資料結構靈活,但缺乏統一查詢文法; (4)圖資料庫:适用于圖像資料、社交網絡、推薦系統,專注建構關系圖譜,支援複雜的 圖形算法,但隻能支援一定的資料規模。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

3)NewSQL 資料庫

NewSQL 資料庫實作關系型資料庫與 NoSQL 資料庫的優勢整合。盡管 NoSQL 資料庫處 理資料的速度快,常用于處理海量資料,但 NoSQL 資料庫并不遵守 ACID 原則,無法滿足 事務一緻性要求。2011 年,Matthew Aslett 提出 NewSQL(可橫向擴充的 OLTP 關系型數 據庫)概念,2012 年谷歌公司釋出 Spanner 與 F1 論文,用原子鐘和 Truetime API 解決分 布式問題,推動 NewSQL 快速發展。NewSQL 架構旨在整合關系型資料庫與 NoSQL 資料 庫的優勢:1)保留 NoSQL 資料庫對海量資料處理的速度與可擴充性;2)采用以 SQL 為 主要接口的關系資料模型,保持傳統關系型資料庫的 ACID 特性。 近年來 NewSQL 資料庫快速發展,主要包括三類發展路徑:1)基于全新的架構設計,代 表産品為 Google Spanner、SAP HANA;2)基于分片中間件,代表産品為 ScaleArc;3) 基于雲服務商的 DaaS(database-as-a-service)平台,代表産品為 Amazon Aurora、ClearDB。

關系型資料庫與非關系型資料庫各有千秋。對比來看,1)關系型資料庫:嚴格遵守 ACID 原則,具備較強的限制性以及資料完整性,利于資料庫的管理的同時也導緻資料庫難以擴 展,在業務快速發展的資訊時代存在一定的成本劣勢;其二維的資料結構減少了資料的冗 餘,但讀取海量資料效率不理想;作為傳統資料庫,關系型資料庫發展時間長,技術成熟, 學習成本低;2)NoSQL 資料庫:遵守 BASE 原則,相較于關系型資料庫,更便于擴充, 儲存模式簡單,查詢速度更快;但其極高的可用性在一緻性上做出了妥協,使用成本較高 且不利于管理,相關技術具備較高的成熟度;3)NewSQL 資料庫:在底層解決了事務一 緻性問題,并整合了 NoSQL 在可擴充性、可用性上的優勢,但 NewSQL 技術較新,學習 成本較高,且目前大多 NewSQL 隻适用特定場景,距離普及還需要一定時間。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

按架構模型分類:集中式架構、分布式架構

集中式資料庫指将資訊存儲、維護在單個位置的資料庫。集中式資料庫利用系統中心的服 務器統一管理所有資源,對資料進行集中儲存及管理,并由一台機器作為伺服器。由于集 中資料庫的所有資料僅存儲在單個位置,是以在資料通路、協調、管理方面具有突出優勢, 同時相較于其他資料庫成本更低,為大多數企業最開始的選擇。但随着資料存儲需求的變 化,集中式資料庫的缺點逐漸顯現:1)難以擴充:隻能通過提升硬體性能實作資料處理性 能的提升;2)容災性差:集中式資料庫采用完全共享(Shared-everything)架構,一旦任 何環節發生系統故障,整個資料庫系統都将無法使用。

常見的集中式資料庫架構,主要包括一主多備、一寫多讀、多寫多讀三類:1)一主多備(備 用不可讀):使用單台主機模式部署,其他備機為主機備份資料,并在主機當機的情況下代 替主機提供服務;2)一寫多讀:一個節點提供寫服務,其他多個節點提供讀服務,寫節點 當機時,讀節點可以代替寫節點來提供服務;3)多寫多讀:多個計算節點共享存儲,每個 節點都提供讀寫服務,同時采用分布式鎖或集中式鎖解決寫沖突。 分布式架構逐漸成熟,主要解決集中式架構擴充性差的問題。不同于既重視資料庫統一處 理資料的架構,分布式資料庫将資料分散在多個互相連接配接的節點上,通過使用多台機器, 将需要處理的資料、工作均衡分散到各個節點中,各節點互相連接配接又能夠獨立工作,節點 故障不會對其他節點産生影響。是以,近年來随業務拓展與資料體量變大,分布式架構成 為衆多企業的選擇。分布式資料庫涵蓋兩大核心技術:1)資料的複制/分區:通過複制或分 區實作資料的多節點存放,複制包括主從複制、對等複制,分區包括垂直分區、水準分區 (即分片);2)分布式事務:通過機制設計保證分布式環境下事務的 ACID 特性,包括兩 階段送出(2PC)、三階段送出(3PC)、最大努力通知等解決方案。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

分布式資料庫技術路線選擇上,都是以解決資料容量擴充問題為首要目标,主流方案包括 三類:1)分庫分表+中間件:下層的單機資料庫提供存儲和執行能力,在多個單機資料庫 上封裝一層中間層補充分布式能力,以統一的資料分片規則管理分布在不同資料庫節點的 資料;2)共享存儲架構:計算節點獨立并且共享一個不帶計算功能的存儲叢集 (Shared-storage),采用存算分離架構,計算層和存儲層都可以動态擴縮容;3)去中心化 架構:每個節點有獨立的計算和存儲功能,采用存算分離架構,并且節點之間不共享資料 (Shared-nothing),分布式叢集的每個節點都是獨立節點。

按業務負載分類:OLAP、OLTP、HTAP

OLAP 為分析型資料庫,OLTP 系統為事務型資料庫。按業務負載類型區分,資料庫大緻 可以分成兩大類:聯機事務處理 OLTP(On-Line Transaction Processing)、聯機分析處理 OLAP(On-Line Analytical Processing):1)OLTP 是傳統的關系型資料庫的主要應用,主 要是基本的、日常的事務處理,記錄即時的增、删、改、查,例如銀行交易;2)OLAP 是 資料倉庫系統的主要應用,支援複雜的分析操作,側重決策支援,并且提供直覺易懂的查 詢結果,典型的應用就是複雜的動态報表系統。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

發展趨勢:資料、計算雙重變化加速分布式資料庫時代到來

資料庫的發展與計算載體緊密相關。資料庫是計算機行業的基礎核心軟體,所有應用軟體 的運作和資料處理都要與其進行資料互動。資料庫的開發難度,不僅展現在與其他基礎器 件的适配,更在于如何實作對資料高效、穩定、持續的管理。從資料庫的發展曆程來看, 計算架構的變化,計算載體的變化、計算場景的變化,以及計算資料格式的變化都對資料 庫的發展帶來一定影響。或者說,在以上計算環境變化下,其需要的資料庫類型也發生了 變化。 從計算載體來看,資料的計算從原來的大型機、到小型機、個人電腦 PC、網際網路、移動互 聯網、雲計算,以及未來更多終端的物聯網智能終端。計算的載體更加多樣化。 從計算場景來看,資料計算也從單獨的單機計算,到網際網路多群體互動的聯網計算和雲計 算,以及萬物互聯的高并發、低延遲時間的物聯網計算。 從計算架構來看,傳統的 IT 架構也正逐漸向雲架構遷移。我們也經曆了從 C-S 架構到 B-S 架構,而目前的雲原生、分布式計算架構正對傳統計算架構帶來深刻變革。而新的計算架 構也對計算的基礎軟體(作業系統、資料庫、晶片等)提出更高的需求。

在以上計算環境的變化下,我們看到,聯網的資料也在發生深刻變化。 資料的大小。目前聯網資料量也在高速增長。通信技術的發展帶動從 2G 到 3G、4G、5G 的演進,每代通信技術之間,聯網的資料規模也呈現(幾個)數量級的增加。對大容量、 高性能計算提出更高要求。 資料的類型。計算場景的演變,我們對資料的定義也在發生變化。圖檔、語音、視訊等非 結構化資料成為增量資料的主要類型。聯網的資料類型也逐漸從原來的結構化資料到非結 構化資料演變,這就對計算的并發性提出了更高的要求。 資料的快慢。對資料的高速計算是計算機一直以來的追求。但原有的 IT 架構下,計算速度 的提升存在一定的實體條件限制。經典的 IT 架構已經存在了幾十年的曆史,當時的 IT 架構 并沒有完全考慮到目前計算場景的變化。是以,新的計算場景下,對資料高速計算的追求, 需要我們從底層基礎軟體的變革開始。我們看到無論晶片、作業系統還是資料庫,都在經 曆深刻變革。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

全球關系型資料庫市場增速漸趨平穩。近年來受資料量激增以及資料類型不斷豐富影響, 傳統關系型資料庫的流行程度呈下降趨勢,據 DB-Engines 資料顯示,近 24 個月關系型數 據庫的市場流行度下降 8.23pct,市場增速逐漸趨于平緩,據 T4.ai 預測,2018-2022 年全 球關系型資料庫市場規模複合增長率為 6%,較 2012-2017 年的 11%或将有所下降。非關 系型資料庫的市場佔有率占比快速提升,根據 Gartner 2021 年釋出的《全球資料庫管理系統 (DBMS)市場報告》,2021 年全球非關系型資料庫的市場收入達 148 億美元,占總體數 據庫市場的 19%,相較于 2017 年 8%的市場占比,非關系型資料庫的市場佔有率顯著提升。

全球資料量激增,分布式資料庫機遇顯現。随着智能移動手機普及、雲計算的興起以及互 聯網的快速發展,全球資料量不斷攀升,據 IDC 資料顯示,全球資料量已從 2010 年的 1.2ZB 增長至 2020 年的 59ZB,複合增長率高達 47.63%。據 IDC 預測,2025 年全球資料量将進 一步增長至 175ZB,2020-2025 年複合增長率為 24.29%。随着資料量上升,全球資料庫規 模快速增長,據 Gartner 預測,2024 年全球資料庫市場規模有望突破千億美元,2018-2024 年複合增長率為 13.78%,同時大資料分析、高并發計算、非結構化/異構資料處理的需求日 益顯現,分布式資料庫兼具拓展性與高可用性,或将成為資料庫行業新的增量市場。

在非結構化資料與高并發計算需求的推動下,分布式資料時代加速到來。在計算、資料的 雙重變革下,我們認為,資料庫行業的發展演進也将經曆重要的技術變革。在傳統計算環 境和資料類型方面,傳統的關系型資料庫依然發揮着重要的作用;但面向未來新的計算場 景與資料需求,資料庫産品亟需進行技術更新以适應下遊需求的變化,通過統計國内外典 型資料庫廠商的技術路線及産品體系變化,我們判斷,資料庫行業已進入以雲資料庫、分 布式資料庫為代表的 3.0 階段。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

競争格局:海外資料庫先發優勢突出,國産資料庫快速發展

全球資料庫産業呈現海外廠商主導的典型特征。相較海外廠商來說,國内資料庫研究起步 較晚,大約是 20 世紀 90 年代改革開放以後才開始進入萌芽階段,該階段資料庫研究主要 源自國家的相關研究計劃或者大學科研需求,缺乏實際的業務場景驅動,是以資料庫技術 發展較為緩慢。從全球市場來看,以 Microsoft、Oracle 為代表的海外資料庫資料庫廠商仍 占據絕大部分市場佔有率,處于絕對上司地位,根據 Gartner 釋出的《2018 年全球資料庫研 究報告》,全球共 14 家企業入選事務型資料庫魔力四象限(中國僅 1 家入榜),19 家企業 入選分析型資料庫魔力四象限(中國僅 3 家入榜),處于上司者象限的企業均為海外廠商。

根據 Gartner 釋出的《全球資料庫市場佔有率報告 2021》,微軟連續兩年市場占有率排名第一, 2021 年占全球市場佔有率 24.0%,與 2020 年相比略有下降;亞馬遜雲科技 AWS 市場占有 率排名上升,主要受其雲資料庫産品快速增長帶動,2021 年 AWS 雲資料庫産品同比增長 42.3%,約為全球雲資料庫市場增長率 22.3%的兩倍;Oracle 資料庫市場占有率排名略有 下降,2021 年占全球市場佔有率 20.6%,主要由于 Oracle 雲資料庫增速遠低于市場增速。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

國産資料庫國際影響力快速提升:1)雲資料庫表現優異: 2019 年 OceanBase 資料庫打 破資料庫基準性能測試(TPC-C)世界紀錄,且于 2019-2021 年連續三年穩居首位;2021 年阿裡雲、華為雲資料庫産品分别入選 Gartner《全球雲資料庫魔力象限報告》上司者象限、 特定領域者象限;2)非關系型資料庫受國際認可:根據 DB-Engines 釋出的資料庫管理系 統受歡迎程度排名,2021 年 2 月,智臾科技 DolphinDB 榮登時序資料庫排行第 10 位,2022 年 10 月,智臾科技 DolphinDB、濤思資料 TDengine、阿裡 TSDB,依次位列時序資料庫 排行第 9、13、35 位;2021 年 5 月,歐若數網 Nebula Graph、華為雲 GraphBase 、百 度智能雲 HugeGraph 圖資料庫,依次位列圖資料庫排行第 15、28、30 名。

資料庫産品包含開源資料庫、商業資料庫兩種商業模式。其中,商業資料庫收費方式主要 有兩種:1)本地部署:本地部署的商業資料庫,一般采用 License 訂閱方式收費,一般按 使用者數或者按 CPU 數定價,按年訂閱,以 Oracle 為典型代表;2)公有雲部署:公有雲部 署的商業資料庫,除了 License 收費還可采用 SaaS 收費方式,使用者可按用量付費,按年/ 季度/月收費,以 Snowflake 為典型代表;開源資料庫供使用者免費使用,主要商業模式包括 三種:1)完全開源式:借助基金會完全托管,以 HBase 為典型代表;2)開源版本和商業 版本分别營運:通過營運開源版本社群積累人才、應用場景、市場品牌等,再通過售賣商 業版本擷取利潤,以 TiDB 為典型代表;3)先開源後閉源:運作前期通過開源社群優化産 品與品牌,之後停止社群的維護将産品閉源商業化,以 Neo4j 為典型代表。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

國産資料庫:産業機遇明朗,國産品牌迅速成長

國産資料庫迎來産業黃金期,國産替代空間廣闊。國産資料庫産業黃金期加速到來,主要 受三方面因素影響:1)資料庫廣泛開源:全球資料庫開源趨勢明顯,據 DB-Engines 資料 顯示,2021 年 1 月起開源資料庫流行程度反超商業資料庫,資料庫開源為國産資料庫發展 提供了良好的技術生态;2)國産化替代逐漸推進:國産資料庫作為信創的關鍵環節,随國 産化替代深入推進而受到高度重視,産品、技術均實作快速發展;3)雲資料庫日益興起: 從全球資料庫部署占比來看,雲資料庫産業趨勢明朗,受益于高人口基數與應用軟體繁榮 帶來場景紅利,國産雲資料庫爆發巨大的産品優勢。根據艾瑞咨詢釋出的《中國資料庫行 業研究報告》,2020 年國産資料庫占全國市場 47%,僅存量市場的替換空間已超 130 億。

技術沉澱疊加信創需求,國産資料庫迎來黃金發展期

國産資料庫發展順應國家需求,國産替代加速産業發展。1995 年,國家郵電部提出開發和 建設“市内電話業務計算機綜合管理系統”,即“九七工程”,在此背景下,國内第一批數 據庫企業開始發展,早期國内資料庫行業高度依賴大學以及國家政府機關,主要用來滿足 國家部門的使用需求。2009 年以前,國内銀行以及企業高度依賴 IMB、Oracle 等海外廠商 研發的資料庫系統,單方向的技術依賴使國内廠商處于被動态勢。2013 年,棱鏡門事件爆 發,資訊安全的自主可控成為國家需求,國内企業積極響應國家需求,自主研發資料庫系 統。國産資料庫作為國産化替代的重要環節,在大陸信創産業政策的指引下實作加速發展。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

總體來看,國産資料庫的發展曆程大緻可分為三個階段: 1)海外壟斷期(1978-2000 年):SQL 體系初建立,美國三巨頭(Oracle,MySQL,SQL Server)相繼初露峥嵘,并逐漸統治全球市場。1977 年國内召開第一次資料庫年會,改革 開放引領浪潮,積極引入國外技術,以三大巨頭為代表的海外資料庫于 90 年代席卷中國; 2)國産萌芽期(2000-2009 年):“十五”計劃期間,國家 863 計劃設立“資料庫重大專項”, 國内研究所與大學積極投入資料庫研究,IT 社群逐漸興起;1999 年,中國首個資料庫“人 大金倉 KingbaseES 資料庫系統”誕生,随後武漢達夢資料庫、神通資料庫系統等國産數 據庫系統相繼面世,打破了 Oracle、IBM 的市場壟斷格局; 3)快速發展期(2009 年至今):2009 年,阿裡巴巴成立阿裡雲,開始研發自己的資料庫 産品 AliSQL;随後,華為、騰訊等企業相繼加入自主研發隊伍,推出自有資料庫産品;雲 計算時代與開源社群的興起,國産資料庫實作彎道超車,基于 NoSQL 等新技術的資料庫産 品加速面世。2019 年,國外廠商神話被打破,螞蟻集團的 OceanBase 資料庫成功登頂世 界上最權威的資料庫評測機構 TPC(國際事務處理性能委員會)排行榜榜首。國産資料庫 遜于海外資料庫已成為過往,國産自研資料庫進入百花齊放階段,近年來随着國産化替代 深入推進,軟體廠商、內建商、營運商紛紛入局資料庫市場,大陸資料庫産業加速發展。

經過多年技術研發和經驗積累,國産資料庫市場佔有率逐年提升。以人大金倉、南大通用、 神舟通用為代表的國産資料庫廠商自 1999 建立以來不斷發力,逐漸打破了海外廠商的壟斷 局面,同時資料庫初創廠商、雲廠商等也加速發力,快速替換海外資料庫廠商的市場佔有率。 根據智研咨詢資料顯示,國産資料庫企業的市場占比已從 2009 年的 4.19%提升至 2017 年 的 16.64%;根據艾瑞咨詢釋出的《中國資料庫行業研究報告》,2020 年國産資料庫市場占 比已提升至 47.4%,其中傳統資料庫廠商占比 7.1%,國産雲資料庫等新興廠商占比40.3%。 根據 IDC 釋出的《2021 年上半年中國關系型資料庫軟體市場跟蹤報告》,在傳統部署模式 市場中,華為、阿裡、達夢資料、人大金倉的市占率分别為 14.7%、5.7%、5.7%、5.0%, 在公有雲部署模式市場中,阿裡、騰訊、華為的市占率分别為 44.7%、17.4%、7.4%。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

關系型資料庫占主流地位,市場競争格局初顯

國産資料庫參與廠商包括傳統廠商、初創廠商、雲廠商和跨界廠商四類。1)傳統廠商:以 達夢資料、人大金倉、南大通用等企業為代表的傳統資料庫廠商,是大陸最早參與資料庫 研發、應用的企業,在資料庫領域具有深厚的技術沉澱;2)初創廠商:以巨杉、PingCAP、 偶數科技、星環科技等企業為代表的初創廠商,依托于新興的資料庫技術與需求,近年來 實作蓬勃發展;3)雲廠商:以阿裡巴巴、騰訊等企業為代表的雲資料庫廠商,得益于互聯 網業務和開源技術的快速發展,積極搭建自研雲資料庫平台,迅速占領雲資料庫市場佔有率; 4)跨界廠商:以中興、浪潮等企業為代表的跨界廠商,積極布局企業級資料庫市場。

根據源代碼來源不同,國産資料庫代碼來源可分為三大類: 1)基于開源代碼研發:MySQL 系的巨杉資料庫、阿裡雲資料庫,PostgreSQL 系的華為 Gauss 資料庫; 2)收購商業源碼+自研:南大通用收購 IBM 的 Informix 資料庫源碼; 3)獨立自研:以武漢達夢資料庫為典型代表。

關系型資料庫占主流,多基于 MySQL 和 PostgreSQL 二次開發而來。關系資料庫作為 傳統資料庫産品,誕生時間早于非關系型資料庫,産品體系更加成熟,在大陸資料庫市場 中占據主流地位。1)從資料庫數量來看:根據中國信通院釋出的《資料庫發展研究報告》, 截至 2021 年 6 月,大陸資料庫産品共有 135 款,其中關系型資料庫 81 個,占比 60%, 非關系型資料庫 54 個,占比 40%;關系型資料庫中基于開源資料庫 MySQL 和 PostgreSQL 進行二次開發的個數分别為 23 和 24 個,分别占關系型資料庫比例為 28.40% 和 29.63%,合計占比為 58.03%。2)從市場佔有率來看:根據艾瑞咨詢釋出的《中國資料庫 行業研究報告》,關系型資料庫市場佔有率占比約為 90%,非關系資料庫市場佔有率僅約為 10%。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

雲資料庫産品優勢逐漸顯現,國産廠商掌握場景紅利。國産雲資料庫廠商的快速發展主要 獲益于大陸的網際網路場景紅利,過去十年網際網路及移動網際網路在中國快速發展,國産廠商 享受了高人口基數與豐富軟體應用場景帶來的場景紅利,積極開拓面向海量、高并發資料 的雲資料庫産品,并憑借産品優勢與本土化業務了解迅速占領國内市場。根據 IDC 釋出的 《2021H2 中國關系型資料庫軟體市場跟蹤報告》,2021H2 公有雲關系型資料庫規模為 8.7 億美元,國産雲資料廠商的市場佔有率合計占比超 68%,國産廠商(阿裡、騰訊、華為)分 别位居前五名中的第 1、2、4 位,其中阿裡處于絕對龍頭位置,占總體市場佔有率的 42.5%。

初創廠商不斷湧現,資料庫産業體系日益完善

國産廠商多處在發展初期,具備較大成長空間。與老牌海外資料庫廠商 50 餘年的發展曆史 相比,多數國産資料庫廠商的成立時長在 10 年以内,根據中國信通院釋出的《資料庫發展 研究報告》,2013-2017 年成立的資料庫廠商數量占國内廠商總數比重近 50%。由于多數國 産資料庫廠商成立年限較短,是以在人才儲備與技術積累等方面,仍與海外廠商存在較大 差距。根據中國信通院釋出的《資料庫發展研究報告》,員勞工數小于 300 的國産資料庫企 業占比高達 84%(Oracle 員工 13,700 名),專利數量小于 50 的國産資料庫企業占比高達 77%(Oracle 專利 1.4 萬個),大部分廠商仍然擁有較大的成長空間。

初創廠商多基于新興資料庫技術,關注非關系型資料庫細分賽道。2015-2018 年大批初創 資料庫廠商成立,包括費馬科技、創鄰科技、歐若數網、蜀天夢圖等圖資料庫廠商以及浙 江智臾、濤思資料等時序資料庫廠商。據艾瑞咨詢統計,2015 年前後成立大部分初創廠商 均采用 NewSQL、SQL on Hadoop、NoSQL 等新技術架構,主要原因在于新技術架構尚處 于發展階段,同時更符合網際網路、金融、物聯網等應用場景的業務需求,為初創廠商實作 新場景下的“彎道超車”提供了更大的可能。初創廠商紛紛湧入非關系型資料庫細分賽道, 有望帶動基于新技術架構的非關系資料庫快速發展,據艾瑞咨詢預測,2020-2025 年以初 創廠商為代表的新興資料庫市場規模有望實作高于 10 倍的增長。 國産資料庫的支撐體系不斷完善。資料庫支撐體系包括學術組織、行業支撐組織、人才培 訓體系三大類:1)學術組織支撐:主要包括高校、企業的學術理論研究,以及相關論文在 學術領域的學術影響;2)行業支撐組織:主要包括具備官方背景的研究組織、資料庫從業 人員牽頭發起的使用者組織、由資料庫企業組建的官方技術社群、彙聚資料庫整體行業資訊 的第三方技術社群等;3)人才教育訓練體系:主要包括高校教育教育訓練、專業機構教育訓練以及企業 教育訓練。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

學術研究與行業發展齊頭并進,學術影響逐漸提升。2016 年-2020 年,大陸成為世界第二 大資料庫領域論文産出國,發文量為 1,141 篇,占全球總發文量 22.4,僅次于美國的 1,319 篇。學術界主要有以 VLDB、ICDE、SIGMOD 為首的資料庫領域頂級會議,高校及企業在 三大會議每年貢獻占比平均為 22.14%、23.74%和 23.81%,占比逐年上升,研究方向多 以圖資料庫、資料挖掘、機器學習、查詢處理等為主。阿裡巴巴、華為、騰訊、螞蟻金服、 等企業和清華大學、香港科技大學、北京大學、香港中文大學、香港大學、浙江大學等高 校論文紛紛入選三大頂會,顯示大陸資料庫學術水準國際影響力不斷擴大。

國内廠商重視人才培養,加快人才教育訓練體系建立。資料庫廠商積極搭建官方社群、開源社 區、第三方資料庫,與全國開發者積極進行技術讨論與交流,加快技術發展,如阿裡雲開 發者社群、PostgreSQL 中文社群、墨天輪等。同時企業廠商積極建立教育訓練機構與認證體系, 加強與院校的交流,辦理不同的教育訓練課程與證書考試,為大陸資料行業培養相關儲備人才。

資料庫開源實作人才積累,貢獻長效技術動力。資料庫開源對于實作人才積累、生态拓展、 産品技術疊代具有重要意義,2014 年 12 月,巨杉資料庫 SequoiaDB 正式開源,成為國内 最早的開源自研資料庫項目,此後 PingCAP TiDB、百度 Roris 和 HugeGraph、華為 Gauss、 螞蟻集團 OceanBase 等國産資料庫紛紛擁抱開源,積極建構開源生态社群,實作了資料庫 開發人才的快速積累。據 Github 釋出的《2021 年度開發者報告》顯示,中國作為全球第二 大開發者來源(755 萬開發者,占比 9.76%)正在快速成長,據 Github 預測,中國有望于 2030 年超越美國,成為全球最大的開發者來源。

各路資本積極入局,國産資料庫市場空間廣闊

各路資本紛紛注入資料庫産業,産業态勢明朗。根據中國信通院統計,自 2013 年至 2021 上半年,資料庫企業累計完成融資約 42 次,單年融資企業次數呈現明顯的上漲趨勢。根據 沙利文釋出的《2021 年中國分布式資料庫》報告,2021 年是國産資料庫投融資最活躍的 一年,2021 年獲得新一輪融資的企業就多達 20 家,千萬級甚至上億級融資數量在 14 輪 以上,其中偶數科技完成 B+輪融資 2 億元,四維縱橫完成 A 輪融資 1 億元,智臾科技完成 B 輪融資 1 億元。國産資料庫的投資方包括紅杉、高瓴、經緯、雲啟、明勢等衆多知名投 資機構,國産自研資料庫産業趨勢明朗,有望在資本注入下實作強勁增長。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

據中國信通院預測,中國資料庫市場 2020-2025 年複合增長率将高達 23.35%,2025 年市 場規模有望達到 688 億元,考慮到目前國産資料庫市占率仍處于較低水準(2020 年國産數 據庫市場占比不足 50%),未來随大陸資料庫市場規模擴大與國産資料庫替代加速,國産數 據庫有望同步擴大存量與增量市場,國産資料庫市場空間前景廣闊。

廠商梳理:海外廠商、國産廠商各具優勢

觀點一:海外廠商向雲化方向深度邁進,SaaS 模式助推新興廠商加速發展

分布式雲資料庫成為海外廠商的發展共識。通過總結 Oracle、Microsoft、SAP、MongoDB 等海外傳統資料庫廠商以及 AWS、Snowflake、databricks 等新興雲資料庫廠商的發展路徑、 技術演進以及現有産品體系,可以看到分布式雲資料庫已成為海外廠商的發展共識,各類 雲托管、雲原生資料庫不斷面世,加速資料庫産品雲化轉型。傳統資料庫廠商基于原有業 務優勢,以雲托管資料庫為主要發展方向,支援資料庫産品在公有雲、私有雲、混合雲環 境下部署;新興廠商多選取雲原生路線,Snowflake、databricks 等廠商更是推出專門面向 公有雲環境的資料倉(分析型資料庫)服務,SaaS 模式助力新興廠商業績高增,以 Snowflake 為例,截至 2022 年 7 月 31 日,公司年化付費超百萬的客戶為 246 個,同比增長 112%。

觀點二:開源、分布式兩大技術趨勢下,國産資料庫有望彎道超車

開源建構資料庫産業正回報循環,主流資料庫産品陸續擁抱開源。資料庫開源旨在通過開 放核心代碼,營運開源社群以實作多方共赢,1)對于社群開發者來說,開源資料庫提供免 費的資料庫産品,成本優勢突出;2)對于資料庫廠商來,通過開源社群可快速獲得産品反 饋,加快産品開發、提升産品品質;3)對于生态夥伴來說,開源産品的生态影響力更強, 可以更好地實作産品相容。通過梳理國産資料庫廠商的發展曆程,可以看到衆多國産廠商 最早都基于開源資料庫建構底層代碼,同時近年來主流資料庫産品紛紛擁抱開源,以加速 産品技術更新,建構友好的資料庫生态。典型代表有巨杉資料庫 SequoiaDB、華為 Gauss 資料庫、阿裡雲 PolarDB for PostgreSQL 資料庫、螞蟻集團 OceanBase 資料庫。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

分布式資料庫時代加速到來,國産廠商加速分布式産品布局。分布式資料庫可有效解決現 有網際網路環境下海量資料、高并發計算的資料需求,成為國産資料庫廠商的産品發展共識。 傳統國産資料庫廠商重點關注分布式關系型資料庫,主要選擇分庫分表+中間件、原生分布 式兩類技術路線;新興國産資料庫廠商廣泛布局分布式關系型資料庫、NoSQL 資料庫、 NewSQL 資料庫等多類型分布式資料庫,大量非關系型資料庫廠商實作彎道超車。

海外廠商:雲資料庫是主要方向,傳統龍頭與新興廠商并駕齊驅

根據 DB-Engines 釋出的資料庫流行度最新排行(2022 年 10 月),全球資料庫排名前五名 依次為:Oracle、MySQL、Microsoft SQL Server、PostgreSQL、MongoDB,新興資料庫 廠商 Snowflake、Databricks 分别位列 13、20 名。我們選取關系型資料庫代表 Oracle、 Microsoft SQL Server,NoSQL 資料庫代表 MongoDB,記憶體資料庫代表 SAP,雲資料庫 代表 AWS、Snowflake、Databricks 作為範例,對海外資料庫廠商的發展曆程及現有産品 體系進行了詳細梳理。

Oracle:傳統資料庫龍頭,加速雲資料庫轉型

Oracle 的資料庫産品是公司的起家業務,技術積澱深厚。Oracle 的資料庫業務發展曆程, 與全球資料庫發展曆史交織在一起,也與 Oracle 整個公司的發展綁定在一起。Oracle 的數 據庫産品包括兩種:1)Oracle 自有資料庫産品 Oracle Database;2)MySQL:2008 年 Sun 以 10 億美元收購 MySQL,2009 年,Oracle 以 74 億美元收購 Sun。

随着 IT 架構、終端裝置形态的不斷變化和遷移,Oracle 的資料庫産品也在不斷更新疊代。 從 Oracle 資料庫産品服務的計算載體的形态來看,經曆了小型機與大型機、客戶機/伺服器 (PC 與伺服器)、網際網路架構/瘦用戶端、資料庫雲/大資料四個階段。目前 Oracle 的資料 産品已經更新到 21c。從以往 Oracle 更新的版本來看,我們可以将其劃分為幾個不同時代:

資料庫行業專題研究:信創正當時,國産資料庫發展提速

階段一:Oracle 9i 之前,支援傳統的 C-S 架構

Oracle 的資料庫産品主要解決的是資料庫的高可靠性問題(注:衡量資料庫産品的核心指 标在于五個方面:高可用性(High Availability)、高性能(High Performance)、高可管理 (High Manageability)、高安全(High Security Ability)、高資料服務能力(High Data Service Ability)五個領域)。Oracle 資料庫核心優勢在于高效、安全、穩定等。

階段二:9i-12c,支援網際網路計算環境

從 Oracle 9i 開始,Oracle 引入新的技術 Oracle RAC,RAC 是指 real application clusters, 譯為“實時應用叢集”。RAC 是 Oracle 新版資料庫中采用的一項新技術,是高可用性的一 種,也是 Oracle 資料庫支援網格計算環境的核心技術。用來在叢集環境下,實作多機共享 資料庫,以保證應用的高可用性。同時可以自動實作并行處理及負載均衡,并能實作資料 庫在故障時的容錯和無斷點恢複。它是 Oracle 資料庫支援網絡計算環境的核心技術。 Oracle RAC 主要支援 Oracle9i、10g、11g、12c 版本,可以支援 24 x 7 有效的資料庫應用 系統,在低成本伺服器上建構高可用性資料庫系統,并且自由部署應用,無需修改代碼。 從 Oracle 12c 開始,Oracle 逐漸開始推出 Options 産品線,推動企業資料中心的整合、數 據集中和網格計算的發展,強化了資料的高可靠性,提升了資料庫對雲計算需求的應對能 力:1)Exadata 資料庫一體機和記憶體選件(In-memory Option)的推出,用來提高性能、 簡化架構,提高資料庫的速度;2)Oracle 12c 的多租戶和 DBaaS 則讓資料庫混合雲成為 可能,客戶可以在不同雲環境中進行切換。

階段三:12c 之後,支援雲計算環境,進入自治時代

Oracle 12c 引入了 CDB 與 PDB 的新特性。在 Oracle 12c 資料庫引入的多租使用者環境 (Multitenant Environment)中,允許一個資料庫容器(Container Database,CDB)承載 多個可插拔資料庫(Pluggable Database,PDB)。在 Oracle 12c 之前,執行個體與資料庫是一 對一或多對一關系(RAC):即一個執行個體隻能與一個資料庫相關聯,資料庫可以被多個執行個體 所加載,而執行個體與資料庫不可能是一對多的關系,當進入 Oracle 12c 後,執行個體與資料庫可 以是一對多的關系。 Oracle 21c 是 Oracle 最新一代資料庫,緻力于實作可部署在本地和雲端的單一融合資料 庫。Oracle 從 19c 開始就緻力于提供全球唯一可運作在本地和雲端的融合資料庫,可支援 使用包括 JSON、圖、XML 等在内的任何資料類型。同時,使用者不必再為不同的工作負載 而建立不同的資料庫,可以在同一個資料庫中運作交易型負載、分析型負載、物聯網、區 塊鍊等,大大減輕 DBA 的工作負擔,降低維護成本,進一步減少故障點,進而保證資料庫 系統安全平穩運作。

Microsoft:兼顧本地、雲端兩大資料庫應用場景

Microsoft資料庫産品多為關系型資料庫。Microsoft于1988年推出Microsoft SQL Server, 為企業提供商業資料管理;1992 年推出 Microsoft Access,為軟體設計師與分析師提供便 捷的應用開發軟體;2010 年推出 Microsoft Azure,為使用者提供雲端資料庫服務,以上三款 産品皆使用關系型資料庫模型。 Microsoft SQL Server 曆經多年疊代,目前包括本地、雲端兩大産品類别。Microsoft SQL Server 的發展大緻可分為三個階段: 1)合作創始初期(1988-1995 年):SQL Server 最早由 Microsoft、Sybase、Ashton-Tate 三家公司共同開發,最早于 1988 年推出了 OS/2 版本;随後 Aston-Tate 退出,1992 年 Microsoft 與 Sybase 共同開發了基于 Windows 系統的 SQL Server,但在 SQL Server 4 後 Microsoft 與 Sybase 分道揚镳,于 1995 年獨立完成 SQL Server 6.0 版本的開發;

2)獨立發展期(1995-2010 年):自 Microsoft SQL Server 6.0 釋出後,SQL Server 産品 進入以Microsoft為單一研發主體的獨立發展期,随後相繼釋出SQL Server 7.0、SQL Server 2000、SQL Server 2005 等多個版本;其中,2008 年釋出的 SQL Server 2008 新增了資料 壓縮、資源調控、備份壓縮等功能,保護了資料庫查詢、減少了管理操作所需時間、增加 了穩定性、增強了系統性能優化以及預測功能等,使其成為了至今為止最強大和全面的 SQL Server 版本; 3)雲化轉型期(2010 年至今):早在 2008 年 Microsoft 專業開發人員大會上,Microsoft 當 時的首席軟體架構師 Ray Ozzie 就宣布推出新雲計算作業系統 Microsoft Azure,并推出 Azure 服務平台關鍵元件之一是 Microsoft SQL 服務;2010 年以 SQL Server 2008 為基 底的雲資料庫 SQL Azure 正式面世,後改名為 Azure SQL,旨在作為 Azure 雲計算平台的 一部分提供的雲資料庫産品/服務。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

總體來看,Microsoft SQL Server 作為一個全面的資料庫管理平台,為使用者提供了企業級的 資料管理,擁有較好的伸縮性與內建度高等優點,主要包括: 1)本地部署 SQL Server 系列; 2)私有雲部署 SQL Server Private Cloud 系列; 4)公有雲部署 Azure SQL 系列:Azure SQL Database、Azure SQL Managed Instance、 SQL Server on Azure VM; 其中,Azure SQL Database 支援大多數本地資料庫級功能,提供最常用的 SQL Server 功 能;Azure SQL Managed Instance 幾乎支援所有的本地執行個體級和資料庫級功能,與 SQL Server 高度相容,适合用于大部分雲遷移方案;SQL Server on Azure VM 能夠輕松直接遷 移 SQL Server 工作負載,保持 100%的 SQL Server 相容性和作業系統級别的通路權限。 根據 Gartner 釋出的《2021 年資料庫市場佔有率》,Microsoft 資料庫市場佔有率為 24.0%,位 居全球第一,其中雲資料庫産品收入增長率為 39.5%,帶動公司資料庫産品整體增長率推 高至 20.9%,略低于市場 22.3%的增長率。

MongoDB:NoSQL 典型代表,提供文檔型資料庫服務

MongoDB 旨在為 Web 應用提供可擴充的高性能資料存儲解決。MongoDB 于 2007 年成 立,是文檔型的 NoSQL 資料庫,資料以文檔的形式在 MongoDB 中儲存,它使用 BJON 作 為資料格式,擁有輕量級、可周遊性、高效性三大特點,有效應對了傳統關系型資料庫在 面臨高讀寫、高存儲、高擴充性與可用性的挑戰。MongoDB 支援 Java、Python、C++等 多類型語言,資料從 MongoDB 中讀取出來後,可無需轉換直接使用,适用于資料量大, 讀寫操作頻繁、資料價值低且對事務要求不高的場景。MongoDB 支援在公有雲、本地和混 合雲環境中大規模部署,2019 年最新釋出的 MongoDB 4.2.0 開始支援分布式事務。

MongoDB 遵從開源協定提供商業資料庫産品。MongoDB 産品體系主要由企業級資料庫産 品 MongoDB Enterprise Advanced、雲資料庫 MongoDB Altas、開源資料庫 Community Server、移動資料庫 MongoDB Realm。1)MongoDB Enterprise Advanced:為企業級數 據庫平台,包括商業資料庫伺服器、企業級管理工具、圖形使用者界面、分析工具內建等功 能;2)MongoDB Altas:為完全托管的雲資料庫産品,包括全面系統監控、托管備份、恢 複等功能;3)Community Server:為免費下載下傳的開源版本;4)MongoDB Realm:為用 于資料密集型網頁的移動資料庫,可借助 Realm Sync 實作邊緣裝置資料到後端雲資料庫的 無縫同步。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

SAP:專注企業業務流程管理,提供記憶體資料庫産品

SAP 作為業務流程管理軟體供應商,緻力于實作企業資料的高效治理。SAP 成立于 1972 年,最初稱為 System Analysis Program Development,後來縮寫為 SAP。SAP 總部位于 德國,在全球擁有 10 萬多名員工,業務範圍遍布 130 多個國家,擁有超過 2.3 億雲使用者。 公司 2010 年釋出的 SAP HANA (Hight-Performance Analytic Applicance)Cloud 産品, 作為統一的資料庫即服務 (DBaaS) 平台,支援針對所有企業資料的現代應用和分析工具, 在擴充性、速度與性能上為使用者提供極佳的體驗。 SAP HANA 元件包括:1)名稱伺服器(Name Server):将資訊傳播到其他元件上;2)預 處理伺服器(Preprocessor):用于文本資料分析;3)統計伺服器(Statistics Server):用 于檢查和分析 HANA 所有元件的運作狀況;4)XS 伺服器(XS Server):用于幫助外部 Java 和 HTML 的應用程式通路 HANA 系統;5)索引伺服器(Index Server):用于處理資料庫 查詢語句的 SQL/MDX 處理器,它将所有查詢請求分段,并将它們引導到正确的引擎以進 行性能優化。

AWS:把握分布式浪潮,提供多類型雲資料庫産品

AWS(Amazon Web Service)把握分布式資料庫浪潮,帶動雲資料庫産品快速發展。AWS 是全球雲服務的先行者,産品覆寫了彈性計算、儲存、分析、開發、網絡安全、資料庫等 多個 200 多個方向,業務覆寫全世界 245 個國家。AWS 雲資料庫擁有一系列全面的資料庫 管理服務,包括針對營運用例、分析用例、圖資料處理、鍵值以及分類賬等,緻力于為用 戶提供适應多場景的專用雲資料庫産品。 AWS 資料庫産品多為單一用途的專用雲資料庫,并為使用者提供雲遷移服務。根據資料庫類 型的不同,AWS 雲資料庫産品分為八大類:1)關系型資料庫:Amazon Aurora(高性能 托管式關系資料庫)、Amazon RDS、Amazon RedShift(經濟高效的資料倉庫);2)鍵值 型資料庫:Amazon DynamoDB(托管式 NoSQL 資料庫);3)記憶體資料庫:Amazon ElastiCache(記憶體中緩存服務)、Amazon MemoryDB for Redis(與 Redis 相容且持久的 記憶體資料庫);4)文檔資料庫:Amazon Document DB;5)列族資料庫:Amazon Keyspaces (相容 Cassandra);6)圖資料庫:Amazon Neptune;7)時序資料庫 Amazon Timestrea; 8)賬本資料庫:Amazon Ledger Database Services(QLDB)。

Amazon Aurora 是 AWS 關系型雲資料庫的典型代表,相容 MySQL 與 PostgreSQL。 Amazon Aurora 是 AWS 從 2014 年開始開發并提供的雲原生關系型資料庫,專門面向雲計 算場景,實作了傳統企業資料庫的性能、可用性與開源資料庫的簡單性、成本效益的有機 融合,可與 MySQL 和 PostgreSQL 完全相容。Amazon Aurora 作為高性能資料庫,兼具高 性能和高可擴充性、高可用性和持久性、高度安全、完全托管等重要特性,服務三星 Samsung、 Halliburton、任天堂 Nintendo、A+E Networks 等多類型客戶。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

Snowflake:提供資料倉庫、資料湖等多種産品

Snowflake 滿足并發性、可擴充性、易用性、平台中立性需求。公司産品完全基于公有雲, 提供包括資料倉庫(Data Warehouse)、資料湖(Data Lake)在内的多種産品,支援非結 構化資料、資料可視化和分析。公司意在打造綜合性的雲資料平台,其資料庫可在三大公 有雲 AWS、Microsofe Azure 和 Google Cloud Platform 上部署,對于企業多雲異構的複 雜環境有适用性、中立性,同時亦提供資料交換功能,解決了過去使用者面臨的投入高、靈 活度低等問題,可吸引中小型客戶。據公司财報,截至 2022 年 7 月,公司有 6,808 個企 業客戶,同比增長 36%,包括全球 2,000 強企業中的 510 家,環比增加 12 家。

資料倉庫滿足多種使用場景需求。資料倉庫采取 Shared-nothing 架構,在節點之間不共享 任何資料,此外 Snowflake 基于 Multi-cluster, shared data 的概念,将存儲和計算分離,解 決了更新擴容時需要重新配置設定節點資源等痛點。在資料支援方面,Snowfalke 支援結構化和 半結構化資料的組合使用,可以接收 JSON、XML 或 Avro 格式的資料,并且支援嵌套和重 複資料類型,進而滿足傳統資料庫、Hadoop 等半結構化使用場景的使用需求。

Snowflake 資料湖産品強調查詢性能、資料管道內建可擴充、安全等。Snowflake 資料湖 産品在利用内置資料治理和安全性的同時,實作快速的資料通路,具備較好的查詢性能, 并且對資料轉換進行了良好的支援,通過雲的模式為客戶省去運維成本。在查詢性能方面, 支援即時和幾乎無限的可擴充性和并發性,此外,通過內建和可擴充的資料管道,實作簡 化資料管道開發以優化性能,依靠管道實時可靠地擴充來處理繁重的資料工作量和可擴充 的資料轉換;在安全方面,則提供了安全的資料協作功能。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

Snowflake 服務各行業客戶。以 hookit 為例,據公司官網,Snowflake 為 hookit 建構具有 可擴充性的多叢集共享資料架構資料庫,提高了 Hookit 的營運效率。查詢效率提高 30 倍, 每天可自動評估社交文章 5 億條,資料倉庫基礎架構成本降低 40%,消除了 88%的内部支 持請求,提升了客戶的運作效率,使客戶能夠專注于産品創新。

Databricks:Lakehouse 概念,幫助客戶建構統一分析平台

Databricks 提出 Lakehouse(湖倉一體)概念。Lakehouse 由資料湖 Data Lakes 與資料 倉 Data Warehouses 融合而成。普通的資料湖在資料品質、一緻性/隔離性、混合處理追加 讀取等方面不如資料倉庫。Lakehouse 相容了資料倉庫和資料湖的優勢,在資料湖的低成 本存儲上實作資料倉庫的資料結構和管理功能。Lakehouse 功能包括事務支援、模式執行 和治理、商務智能 BI(Business Intelligence)支援、存儲與計算分離、開放性、支援多種 資料類型、各種工作負載、端到端流。

Databricks 為客戶提供統一分析平台以提升效率。Databricks 通過建構統一分析平台,1) 可以簡化跨功能團隊的分析工作流程,使用單一平台查詢、調試和探索流式處理和批次數 據,以及建構和部署 ML 模型;2)打造互動式工作空間,促進與共享筆記本環境的合作, 使資料科學家能夠快速實時在模型上進行重複;3)簡化管理,使公司無需人工幹預即可完 全自動化作業排程、監控和叢集管理。 以 RB 為例,Databricks 為 RB 提供了一個統一的資料分析平台,該平台在資料科學和工程 領域營造了可擴充的協作環境,使資料團隊能夠更快地進行創新,并為業務提供 ML 驅動的 見解。據公司官網,該方案使得公司業務可支援量提高 10 倍,資料從 80TB 壓縮到 2TB, 降低了營運成本,24*7 個任務的資料管道性能提高 2 倍。

國産廠商:傳統廠商積澱深厚,新興廠商聚焦新興技術

根據墨天輪釋出的國産資料庫流行度最新排行(2022 年 10 月),國産資料庫排名前五名依 次為:TiDB、OceanBase、達夢、openGauss、PolarDB。我們選取傳統資料庫代表武漢 達夢、人大金倉,雲資料庫代表 OceanBase,GaussDB,新興資料庫代表巨杉資料庫、TiDB、 星環科技KunDB作為範例,對國産資料庫廠商的發展曆程及現有産品體系進行了詳細梳理。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

達夢資料:背靠中國電子,主攻混合型資料庫HTAP

背靠 CEC 中國電子,主攻混合型資料庫 HTAP。武漢達夢成立于 2000 年,是中國電子信 息産業集團(CEC)旗下基礎軟體企業,專注于為客戶提供以資料庫軟體、叢集軟體、雲 計算、大資料平台為代表的全棧資料産品及解決方案,産品涵蓋資料庫、雲計算、大資料 三大類。在資料庫領域,武漢達夢主攻混合型資料庫 HTAP,旨在用一種資料庫模式處理客 戶所有資料庫需求,适合業務廣、資料量大的綜合型客戶使用,目前已掌握資料管理與數 據分析領域的核心前沿技術,擁有全部源代碼,具有完全自主知識産權。達夢資料庫産品 目前已廣泛應用于金融、電力、航空、通信、電子政務等 30 多個行業領域。

達夢主推透明分布式資料庫(DMTDD)技術。達夢提出的 DMTDD 技術包括靈活橫向擴充、 完整的 SQL 特性支援、多副本資料異地容災的特點。結合了分布式資料庫高可擴充、高可 用、高并發處理能力,并支援傳統資料庫開發接口和業務開發架構的技術架構。 (1)靈活橫向擴充:DM8 TDD 采用計算存儲分離的系統架構,實作計算、日志、存儲三 層分離,可實作各層獨立擴充、按需配置裝置的特點。 (2)完整的 SQL 特性支援:支援多表連接配接查詢、子查詢、視圖嵌套查詢、遞歸表達式查 詢等進階查詢文法。提供存儲過程、觸發器、Package、序列等進階功能特性。 (3)多副本資料異地容災:支援異地部署,通過将資料副本存儲在不同的容災域,實作數 據的異地容災;日志服務本身具備副本與容災能力,可在每個資料中心分别部署;資料庫 服務在主機房按需部署,在檢測到災害時,即時啟動。

新一代分布式資料庫 DMDPC 具備極緻的橫向擴充能力。2022 年,達夢資料釋出新一代分 布式資料庫産品 DMDPC,DMDPC 資料庫無狀态計算節點,可随資料庫并發壓力負載按需 增加或減少節點,具備極緻的橫向擴充能力。同時 DMDPC 支援分布式事務(滿足 ACID 規範)、資料分片的多副本容災、多機并行協同計算,适用于 HTAP 場景。DMDPC 架構包 括三類節點:1)計劃生成節點 SP:對外提供分布式資料庫服務,也會配置設定執行帶有彙總 性質以及不包含資料掃描操作的子任務;2)資料存儲節點 BP:通路資料并進行簡單的過 濾、投影以及分組操作;3)中繼資料伺服器節點 MP:擷取 SP、BP 節點的資料字典資訊。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

新一代分布式資料庫 DMDPC 滿足金融、電網、交通、工業網際網路等多場景需求。1)金融 系統:DMDPC 基于改進的多主機 XA 協定、基于分布式環境的多版本并發控制等技術,保 證了分布式資料庫對事務 ACID 規範的支援,滿足金融核心業務系統對事物強一緻性的需求; 2)智慧電網:支援同城異地多活,可有效支援電網在全國多地的部署聯網;3)智慧交通: DMDPC 可實作計算資源的按需配置設定,彈性擴充、支援 GIS 地理資訊存儲;4)工業網際網路: 支援100以上的分布式節點且采用多種安全加強措施,可支撐工業網際網路的資料安全需求。

人大金倉:背靠 CETC 中國電子科技集團,老牌資料庫

背靠 CETC 中國電子科技集團,是成立最早的國産資料庫企業。人大金倉背靠 CETC 中國 電子科技集團,由中國人民大學最早一批從事資料庫研究的專家于 1999 年發起創立,先後 承擔了國家“863”、“核高基”等重大專項。人大金倉專注資料庫領域 20 餘年,具備出色 的資料庫産品研發和服務能力,資料庫産品廣泛服務于電子政務、國防軍工、能源、金融、 電信等 60 餘個重點行業和關鍵領域,截至 2021 年,産品累計裝機部署超百萬套。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

三大資料庫産品各具優勢,使用多類型應用場景。1)KES:KingbaseES 作為人大金倉的 通用型資料庫産品,是一款面向大規模并發交易處理的企業級關系型資料庫,嚴格支援 ACID 特性,具備遷移簡單、高度容錯、系統自治、相容性好的突出優勢,并提供可覆寫遷 移、開發及運維管理全使用周期的智能便捷工具;2)KADB:KingbaseAnalyticsDB 采用 shared-nothing 分布式架構,是一款具有高性能、高擴充性能力的 MPP 資料庫産品,适用 于資料倉庫、決策支援、進階分析等分析類應用場景;3)KSOne :是人大金倉自主研發 的 HTAP 分布式資料庫,擁有高可靠,高安全,彈性伸縮,高效備份恢複等關鍵能力,可 以為海量資料、海量并發使用者、高負載壓力、高連續性要求的業務系統提供強有力支撐。

人大金倉緻力于為政務、能源、國防、金融、電信等國家企事業機關提供資料解決方案。 人大金倉作為國産資料庫領軍企業,積極推動與産業鍊上下遊夥伴産品的相容适配,涵蓋 晶片、作業系統、雲平台、中間件以及上層軟體應用,具備來自上下遊 1,300 多家公司超 4,000 份相容認證,全面适配國家專用項目相關産品。人大金倉在部署模式上提供線下部署 與線上雲适配兩種形式,雲聯合方案覆寫主流雲廠商。金倉資料庫産品廣泛服務于電子政 務、國防軍工、能源、營運商、金融等 60 餘個關鍵行業,涵蓋國家電網、南方電網、中國 人民銀行、中國銀行、中國郵政、中國移動等重點企事業機關。

阿裡 OceanBase:金融級分布式關系資料庫,核心代碼開源

發端于阿裡内部,2021 年正式開源。OceanBase 是由螞蟻金服、阿裡巴巴完全自主研發 的分布式關系型資料庫,始創于 2010 年,應用于支付寶全部核心業務以及阿裡巴巴淘寶業 務,從 2017 年開始,開始服務外部客戶。2020 年 6 月 8 日,螞蟻集團将自研資料庫産品 OceanBase 獨立進行公司化運作,同年 9 月,中國工商銀行開始采用螞蟻自研資料庫 OceanBase,其對公(法人)理财系統已完成從大型主機到 OceanBase 分布式架構的改 造。2021 年 6 月,OceanBase3.0 版本釋出并正式開源;2022 年 8 月,OceanBase4.0 正 式釋出,成為業内首個單機分布式一體化資料庫。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

OceanBase 是金融級分布式關系資料庫,具備線上水準擴充能力。OceanBase 是一款針 對特殊巨型複雜網絡、超大實時更新資料場景的分布式實時資料庫産品,擁有簡單易用、 性能高的特點。該産品定位是一款分布式關系資料庫,适合于金融、證券等涉及交易、支 付和賬務等對高可用、強一緻要求較高,同時對性能、成本和擴充性有需求的金融屬性場 景,以及各種關系型結構化存儲的 OLTP 應用。

OceanBase 産品體系涵蓋四大類:1)分布式資料庫:包括社群版、企業版、公有雲三大 版本,社群版可免費下載下傳,适用于中小企業開發者,企業版适用于追求更高擴充能力、穩 定性的中大型企業,公有雲版适用于阿裡雲、AWS 等全球主流公有雲場景;2)圖資料庫: OceanBase TuGraph 建構了包含圖存儲、圖計算、圖學習、圖研發平台的完善的圖技術體 系,适用于金融、工業、政務等業務場景;3)時序資料庫:OceanBase CeresDB 基于 OceanBase 分布式存儲引擎,用來存儲和管理時間序列資料,适用于物聯網 IoT、運維監 控等業務場景;4)工具體系:涵蓋資料庫評估、遷移、開發、運維等工具。

OceanBase 客戶主要集中在銀行、保險證券、政企、網際網路。OceanBase 最早應用于阿 裡集團的淘寶、網商銀行、支付寶等業務場景,實作了在網際網路、金融交易等業務上的産 品沉澱,目前下遊客戶主要集中在銀行、保險、證券、政企、網際網路等領域。以中國工商 銀行為例,面對工商銀行的 5 級容災要求,OceanBase 結合不同的副本屬性組合實作“數 據庫同城雙活、異地 RPO=0 的兩地三中心方案”的容災部署,實作了兩地三中心的城市級 容災,解決了容災标準高、建設成本高、備機房資源浪費等問題,滿足 7x24 小時服務要求, 資料庫伺服器資源使用率達到 75%,降低了整體的投入成本。

華為 GaussDB:AI 原生資料庫,擁抱開源生态

AI 原生&支援異構計算。華為 GaussDB 是一個企業級 AI-Native 分布式資料庫,可為超大 規模資料管理提供高成本效益的通用計算平台,也用于支撐各類資料倉庫系統、BI 系統和決 策支援系統,為上層應用的決策分析提供服務。GaussDB 采用 MPP(Massive Parallel Processing))架構,支援行存儲與列存儲,提供 PB 級别資料量的處理能力。GaussDB 是 全球首款 AI-Native 資料庫,能夠同時支援 X86、ARM、GPU、NPU 等異構計算,布局全 球 7 大區域,服務金融、政企、網際網路、遊戲、汽車等行業标杆客戶超 2,500 家。

GaussDB 包含三大産品線:關系型資料庫、非關系資料庫、資料庫生态工具/中間件。1) 關系型資料庫:包括華為自研的雲資料庫 GaussDB(for openGauss)、GaussDB(for MySQL)以及非自研的适用于 MySQL、PostergreSQL、SQL Server 的雲資料庫 RDS;2) 非關系型資料庫:包括華為自研的 GaussDB(for Mongo)、GaussDB(for Cassandra)、 GaussDB(for Influx)、GaussDB(for Redis)以及非自研的文檔資料庫服務 DDS;3)數 據庫生态工具/中間件:包括資料複制服務 DRS、管理服務 DAS、資料庫和應用遷移 UGO 以及分布式資料庫中間件 DDM。

openGauss 擁抱開源。2019 年 9 月,華為宣布開源其 GaussDB 資料庫,開源後的産品 命名為 openGauss,2020 年 6 月 openGauss 源代碼正式開放并釋出 1.0.0 版本,同年 7 月社群關鍵組織開始運作。openGauss 核心源自 PostgreSQL,代碼自研占比超過 74%, 截至 2022 年 6 月開源社群使用者超 64 萬,貢獻者約 3,000 人。基于 openGauss 開放生态, 華為進一步推出分布式雲資料庫 GaussDB(for openGauss),該産品具備企業級複雜事務 混合負載能力,同時支援分布式事務強一緻、同城跨 AZ 部署、資料 0 丢失,支援 1000+ 的計算節點擴充能力、4PB 海量存儲,擁有雲上高可用、高可靠、高安全、彈性伸縮、一 鍵部署等關鍵能力,現已廣泛适用于金融、政企、網際網路等關鍵場景。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

GaussDB 适應網際網路、金融、遊戲、汽車等多業務場景。GaussDB(for openGauss)作 為金融級分布式資料庫,具有高性能、高彈性、AI-Native 自治的典型特性,廣泛應用于金 融業務場景;GaussDB(for MySQL)資料庫提供百萬級 QPS,性能最高可以達到 MySQL 社群版本的 7 倍、GaussDB(for Mongo) 性能最高可以達到 MongoDB 社群版本的 3 倍, 滿足遊戲業務場景下彈性伸縮、一鍵回檔、快速開服的業務需求;綜合應用 RDS 資料庫、 DDS 文檔型資料庫、資料複制服務 DRS、分布式資料庫中間件 DDM 等産品,可建構讀寫 分離的分布式架構,為網際網路行業應用提供分布式解決方案。

巨杉資料庫:自研金融級分布式資料庫的獨立廠商

專注分布式資料庫技術研發的自研資料庫獨立廠商。巨杉資料庫成立于 2012 年,是一家專 注分布式資料庫技術研發的自研國産基礎軟體廠商,公司自成立以來,專注資料庫産品研 發,堅持從零開始打造原生分布式資料庫引擎,經過多年積累,現已推出分布式資料庫 DB (實時資料湖)、内容管理平台 CM(多模資料湖)、湖倉融合平台 DP(湖倉一體)三大産 品線,廣泛應用于金融、政府、能源、電信、交通等領域,企業使用者總數超過 1,000 家。

從商用首發時間看,巨杉資料庫是國内最早進行商業化布局的分布式資料庫。2012 年, SequoiaDB 巨杉資料庫作為獨立資料庫公司開始研發,進行原生分布式架構布局。2013 年 SequoiaDB v1.0 産品化正式商用并進軍企業級領域,開始為客戶提供産品及技術服務支援。 自研核心具有領先性,支援跨結構化、半結構化、非結構化的多模資料處理。巨杉資料庫 堅持自主打造原生分布式資料庫引擎,專注資料庫技術研發,聚焦金融賽道,緻力于以金 融行業為核心,打造安全可靠、高性能,适合全行業通用的分布式資料庫産品。巨杉分布 式資料庫 SequoiaDB 基于巨杉自研的原生分布式核心,研發出引擎級多模及 STP 邏輯時 鐘協定分布式資料庫技術,能夠實作分布式交易與 ACID 的完全相容,同時架構及功能特性 與傳統資料庫完全相容,提供跨引擎事務支援和一緻性保障。SequoiaDB 支援多種級别的 容災部署形态,如同城雙中心、同城三中心、兩地三中心、三地五中心等,獨創四級熔斷 容災安全保護機制,充分保證資料安全,滿足核心交易業務的嚴苛要求。

湖倉一體平台為資料聯通提供解決方案。巨杉推出的湖倉融合平台 SequoiaDP 以分布式數 據庫 SequoiaDB、内容管理平台 SequoiaCM 為基礎,打破了資料湖與資料倉庫割裂的體 系,可以為上層應用提供“一數一源”的資料基礎設施。湖倉一體架構除了具備多模能力, 相容多種結構化資料、半結構化資料和非結構化對象資料引擎以外,還可以提供包括流式 計算、高性能列存分析引擎、跨引擎資料 ACID 一緻性等能力,支援 Tableau、Power BI、 帆軟、SmartBI 等國内外分析工具,解決了獨立建設、管理的資料庫資料互不相通的問題。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

助力資料庫信創生态、支撐體系建設。巨杉資料庫積極參與信創生态建設,根據 2021 年信 創産業技術與應用大會,截至 2021 年 3 月,巨杉已經與鲲鵬、飛騰、統信、銀河麒麟等産 品完成相容認證,合作夥伴總數超 50 家,為企業客戶打開豐富的上下遊産品生态。得益于 引擎級多模的高度相容,巨杉資料庫現已與近百家企業的 200+産品完成了相容測試與認證, 産品對接時間平均降低到 15 個工作日,為企業客戶打開豐富的上下遊生态。 2019 年,巨杉資料庫搭建“巨杉大學”認證與學習體系,講師團隊由巨杉資料庫官方的數 據庫架構師、資深分布式技術專家以及開源社群技術大咖共同組成。截至 2021 年 6 月,已 有超 180 家金融機構,30 餘家知名技術服務開發商參加巨杉大學計劃。截至 2020 年底, 經過短短 1 年的發展,巨杉大學已認證工程師超過 1 萬人,網站使用者注冊數量超過 5 萬人, 為分布式技術業界發展提供堅實的人才積澱。

PingCAP TiDB:開源分布式關系型資料庫

TiDB 為 PingCAP 自主研發的一棧式實時 HTAP 資料庫。PingCAP 公司成立于 2015 年, 借鑒 Google Spanner 及 F1 論文的實作,TiDB 在 Github 上開源,從僅有 SQL 層及 KV 層 的 beta 版本到現在已經衍生出龐大家族的 6.0 版本,始終圍繞着為使用者提供一棧式 OLTP、 OLAP、HTAP 解決方案的目标演進。在核心設計上,TiDB 分布式資料庫将整體架構拆分 成了多個子產品,各子產品之間互相通信,組成完整的 TiDB 系統。與傳統的單機資料庫相比, TiDB 的純分布式架構擁有良好的擴充性且具有豐富的工具鍊生态,覆寫資料遷移、同步、 備份等多種場景。2022 年,TiDB Cloud 正式商用,TiDB 支援本地和雲部署兩種方式。

TiDB 适應多應用場景。依托純分布式架構及開源社群,TiDB 持續擴充出豐富的應用場景: 1)對資料一緻性及高可靠、系統高可用、可擴充性、容災要求較高的金融場景:TiDB 采 用多副本+Multi-Raft 協定的方式将資料排程到不同的機房、機架、機器,當部分機器出現 故障時系統可自動進行切換; 2)對存儲容量、可擴充性、并發要求較高的海量資料及高并發的 OLTP 場景:TiDB 采用 計算、存儲分離的架構,可對計算、存儲分别進行擴容和縮容,計算最大支援 512 節點, 每個節點最大支援 1000 并發,叢集容量最大支援 PB 級别; 3)Real-time HTAP 場景:TiDB 在 4.0 版本中引入列存儲引擎 TiFlash,結合行存儲引擎 TiKV 建構真正的 HTAP 資料庫,在增加少量存儲成本的情況下,可以同一個系統中做聯機 交易處理、實時資料分析,極大地節省企業的成本;

4)資料彙聚、二次加工處理的場景:TiDB 通過 ETL 工具或者 TiDB 的同步工具将資料同 步到 TiDB,在 TiDB 中直接生成報表,便于将分散在不同系統中的資料彙總,以便決策層 了解公司的整體業務狀況及時做出決策。 “開源社群”助力“開源商業化”。PingCAP 擁有豐富的開源社群活動,形成開源社群和自 身研發的有效協同。通過開源及免費政策,快速擴充開發者及技術粉絲使用者群體,實作未 來商業變現機會的長期積累。據 GitHub,截至 2022 年 8 月,TiDB 項目在 GitHub 上已 總計獲得超 32,000 顆星,超 1,800 位開源代碼貢獻者,高度活躍的開源社群為 TiDB 産 品發展帶來了正向回報閉環。TiDB 已廣泛應用于網際網路、遊戲、金融、政府等多領域。

星環科技:專注企業級大資料服務,布局分布式資料庫

布局分布式資料庫,搭建資料服務閉環。星環科技成立于 2013 年,專注于企業級容器雲計 算、大資料和人工智能核心平台的研發和服務,目前已形成包括大資料與雲基礎平台(大 資料基礎平台 TDH、資料雲平台 TDC)、分布式關系型資料庫(ArgoDB、KunDB)、資料 開發與智能分析工具(大資料開發工具 TDS、智能分析工具 Sophon)在内的産品體系。 ArgoDB 與 KunDB 分别為分析型、交易型資料庫産品:1)ArgoDB:是一款具備多模型、 聯邦等特性的高性能分析型分布式資料庫,于 2019 年成為全球第四個通過 TPC-DS 基準 測試并經過 TPC 官方審計的資料庫産品;2)KunDB:是一款相容 SQL 标準語言的交易 型分布式資料庫,可支援高并發交易場景的核心業務。

資料庫行業專題研究:信創正當時,國産資料庫發展提速

ArgoDB 滿足資料多模、聯邦計算需求。與傳統的 MPP 資料庫相比,ArgoDB 具有存算解 耦結構,存儲和計算獨立按需擴縮容,具備更強的可擴充性、一緻性、平滑适配雲原生架 構等優勢。2022 年最新釋出的 ArgoDB 5.0 推出新一代的向量化計算引擎和多模存儲引擎, 分析能力達到了同類資料庫産品 2~10 倍,同時可提供多模分析,擁有實時資料處理、AETP 混合負載、聯邦計算、隐私計算等能力,可一站式滿足湖倉集一體化建設需求。

KunDB 支援高并發交易場景的核心業務。KunDB 具有業内領先的事務處理性能,SQL 兼 容性以及最新的分布式查詢優化技術,支援複雜查詢且性能是 MySQL 的 10 倍以上,充分 滿足高并發、大資料量的交易型業務場景。更新後 KunDB 3.0 高度相容 Oracle 文法及 PL/SQL,基于更新的 TSO 全新分布式事務架構,性能領先主流開源 NewSQL 5 倍以上, 分布式查詢優化和向量化執行引擎技術支援 TPCH 複雜分析,并提供一體化實時 HTAP, 支援一緻性備份恢複及容災,全面助力資料庫國産化更新。

星環科技資料庫服務能源、金融、政府、交通等多業務場景。ArgoDB 主要用于建構離線數 據倉庫、實時資料倉庫、資料集市等資料分析系統,适用于建構能源、物聯網、政務等大 資料平台的業務場景。KunDB 适用于對資料具有高并發讀寫需求,同時需要 ACID 保證的 交易型場景,如金融、電信、能源等核心業務系統;也适用于對資料庫有高并發和大容量 存儲需求的場景,如物聯網、日志存儲等系統。此外,公司結合 KunDB 和 ArgoDB 打造了 一體化實時 AETP技術(分析增強型交易庫),可以同時支撐交易與分析混合型的業務場景。

(本文僅供參考,不代表我們的任何投資建議。如需使用相關資訊,請參閱報告原文。)

精選報告來源:【未來智庫】。

繼續閱讀