(報告出品方/作者:廣發證券,劉雪峰)
一、大資料時代,分布式和雲原生架構的資料平台産品是未來發展趨勢
資料存儲、處理和分析的需求正向海量、異構、多源的方向發展。1980年代至2000 年代,由于資料采集方式有限,計算機處理的資料類型以結構化資料為主,組織和 存儲都具有規律性,且資料處理量較小,可以用集中式的關系型資料庫來管理。2000 年之後,随着網際網路技術的快速發展,采集的資料量呈現出爆發式增長;此外,随 着各類傳感器采集數量的不斷增加,圖像、視訊、文檔等非結構化資料大量增加。 對于海量、異構和多源的資料處理任務,基于單台硬體裝置的集中式資料庫難以滿 足,而基于計算叢集的分式和雲原生的資料平台産品很好的滿足了這一需求,是未 來的發展趨勢。接下來,我們從需求變化導緻軟體架構更新的角度,探讨資料庫軟 件及大資料平台産品未來的發展趨勢。
大資料平台是集合了資料庫在内的、圍繞資料全生命周期需求的平台軟體産品。大 資料平台是集資料接入、處理、存儲、查詢檢索、分析挖掘等為一體的産品。相較 于資料庫産品,其新增了批/流計算引擎、資源調配器、中間件以及應用接口等更多 元件,其子產品元件更加接近于系統底層、功能更加綜合。大資料平台不僅可以搭載 多個資料庫,還為更多類型的資料庫開發提供了通用的軟體環境,降低了新品開發 的邊際成本。以星環科技的大資料基礎平台TDH的更新疊代曆程為例,其在完成了 底層關鍵元件自研開發的基礎上,從早期的寬表資料庫和圖資料庫,快速拓展開發 了時序資料庫、關系型資料庫、文檔資料庫等多個類型的資料庫。其在TDH的基礎 上,各類資料庫新品和分析工具的開發邊際成本逐漸降低,業務邊界可拓展性更強。
資料處理的類型由結構化資料向多源異構資料轉變,非關系型資料庫快速興起。 2000年之前,處理的資料類型以結構化為主,基本遵循标準的資料格式與長度規範, 其主要以二維表結構的關系型資料庫進行存儲和管理。21世紀初,随着網際網路技術 的發展,包括辦公文檔、XML、HTML、圖檔和音頻、視訊資訊等非結構化資料的 處理需求快速增加,關系型資料庫在非結構化資料的處理分析和讀寫性能的局限性 逐漸凸顯。非關系型資料庫針對不同場景需求,采用不同的資料存儲模型,更好的 滿足了多種類型資料的處理需求。兩種資料庫在資料完整性、擴充性、讀寫可用性、 産品成熟性和架構靈活性等方面各有側重,其适用的場景也有所不同,具體來看:
1. 關系型資料庫:關系型資料庫是建立在二維表的集合。每個表有唯一的名字,表 的每一行代表了一組值之間的聯系,表的每一列是對實體屬性的描述,要求存儲 值的類型相同。一方面,關系型資料庫在資料讀取、寫入等基礎操作性能穩定, 另一方面,其可以存儲和處理的資料類型較為單一。 2. 非關系型(NoSQL)資料庫:非關系型資料庫沒有嚴格的資料規範,可根據需 要靈活存儲方式。目前主流的非關系型存儲模型包括鍵值對存儲、寬列式存儲、 文檔型存儲和圖形存儲等。由于非關系型資料庫不要求資料的強一緻性,其可覆 蓋的應用場景更加廣泛。
按架構分類,資料庫可以分為集中式、分布式和雲原生三個類型的資料庫: 1. 集中式資料庫:所有的資料存儲、計算和分析任務都在一個中央處理系統上完成, 其存儲和處理的資料類型較為單一,以關系型資料為主,即以行和列的表單形式 存儲資料。相關代表性産品包括Oracle、IBM DB2和微軟的SQL Server。 2. 分布式資料庫:通過多個節點的形式組成計算叢集,根據資料處理需求将計算、 記憶體、帶寬等資源合理地配置設定在不同規模的節點上進行處理,進而實作對海量異 構資料的處理。相關代表性産品包括星環科技的ArgoDB和KunDB。 3. 雲原生資料庫:在計算叢集的基礎上,該架構實作了計算和存儲資源在硬體層面 的分離,解決了計算資源和存儲資源擴容節奏不同步的問題,進一步提升資源利 用效率。相關代表性産品包括Snowflake的Data Cloud。
資料處理量向海量資料轉變,分布式和雲原生的資料平台産品是未來發展趨勢。 2000年後,随着資料采集手段的增多,資料處理量快速增長。在資料處理量由TB級 别提升至PB(約1000TB)級别時,采用一個中央處理系統的集中式架構的資料庫 産品存在存儲空間不足、高并發響應速度慢以及等問題。而基于計算叢集的分布式 資料庫,具有單機硬體性能要求低、擴容便捷等優勢。雲原生的資料庫在計算叢集 的基礎上,實作了計算資源和存儲資源的精細化管理,進一步提升資源使用率。基 于并行協作、資源共享的理念建構的分布式和雲原生架構的資料庫,在海量資料處 理的整體性能上較集中式架構資料庫都有較大提升。
(一)集中式資料庫對海量資料的存儲空間有限,擴充性不夠
1. 技術架構 1980-2000年,資料管理軟體主要為集中式架構的資料庫産品,即所有的資料存儲、 計算和分析任務都在一個中央處理系統上完成。一般而言,中央處理系統是一台各 方面性能較普通伺服器要高的大型機。集中式資料庫從技術角度具有以下特點: (1) 運作穩定可靠:集中式資料庫發展時間較長,在資料讀寫的穩定性、運作維 護方面具有較為成熟的方案,穩健可靠,維護簡單。 (2) 安全性較高:集中式資料庫具有隔離性的特點,即多個并發事務之間實作了 互相隔離,各資源獨立,資料安全性更高。
(3) 依賴于特定的硬體:集中式資料庫建構在高端硬體基礎上(例如IBM大型機和 EMC磁盤陣列),對硬體專用性要求很高,導緻部署成本較高。 (4) 存儲容量有限:一般集中式架構的硬體存儲容量在GB級别,容量的提升隻能 依靠提升裝置自身的性能,其存在TB級别的存儲量上限,難以應對超過TB級别, 達到PB級别海量資料的存儲。 (5) 可擴充性較弱:在少數模式下(例如RAC、PureScare),計算節點可擴充, 但多個計算節點之間資料共享性能較差,并且可擴充的計算節點數量有限。
總體而言,集中式資料庫适合處理資料量和通路量都比較平穩、比較有限的場景, 比較難應對資料量和通路量快速增長的場景。在通路的并發量超過單點裝置所能提 供的存儲容量上限或者計算能力上限時,劇烈的資源争搶會導緻整體性能顯著下降。此外,集中式資料庫無法滿足多源資料融合處理的需求。在集中式資料庫處理資料 類型較為單一的情況下,其應用場景被限定在某一點狀資料問題的解決上。未來, 随着企業客戶業務複雜度的不斷提升,多源資料融合處理和分析已成為主要需求。 集中式架構下的資料庫産品難以滿足這一需求。
2. 商業模式。集中式資料庫的的商業模式分為兩種,一種是資料庫産品搭載于小型機或高性能服 務器上軟硬體一體銷售的模式,另一種是軟體授權一次性收費。
(1) 軟硬一體銷售:以IBM為例,其搭載了DB2資料庫産品的大型機采取軟硬一體 的形式向客戶傳遞。以Z16為代表的大型機在硬體層面對資料庫産品進行了優化 和适配,對于運作DB2資料庫的應用執行個體、批處理應用程式有更好的表現。這 一模式下,軟硬體耦合度較高,在軟硬體優化适配的基礎上,資料處理的整體 性能表現較好,但價格較為昂貴。 (2) 軟體一次性授權模式:以Oracle為例,其在2000年初主要商業模式是根據搭 載于伺服器上不同的資料庫産品功能,收取一次性的軟體授權費。Oracle的數 據庫主要采取兩種方式計算軟體授權費用。在使用者數量較小的場景,Oracle确 定機關使用者License的價格,根據客戶數量來收費。在使用者量較大的場景,Oracle 根據搭載伺服器的CPU核心數量來進行收費。
3. 下遊需求。資料類型較為單一,資料應用場景較為簡單。2000年前,由于資料采集手段有限, 資料庫存儲和處理的資料類型較為單一,以關系型資料為主。集中式資料庫的資料 存儲系統較為固定,一般一套資料庫軟體隻能存儲一種類型的資料類型。集中式數 據庫處理的資料類型是以關系型資料為主,即以行和列的形式存儲資料,可了解為 二維表格模型。客戶更加關注的是資料應用層面,即如何利用資料對其業務進行有 效賦能。企業客戶對資料應用的需求主要有兩個場景:
(1) 在交易型場景中,企業客戶需要針對業務變化資訊對資料庫進行實時的增、 删、改等編輯操作,對資料處理的準确性和實時性有較高的要求。例如,銀行的交 易型資料庫需要具備針對上萬條存款、貸款、轉賬等業務資料進行同時、準确、快 速處理的能力。交易型場景對于資料處理的需求呈現出小批量、高并發和快速回報 的特點。 (2) 在分析型場景中,企業客戶需要針對業務進展和營運情況進行長期趨勢的分 析,用于風險預警和輔助決策。分析型場景對于資料處理的需求呈現出大批量、多 資料源以及多元分析的特點。
集中式資料庫在資料讀取、寫入等基礎操作性能穩定。針對于以上兩個場景的業務 需求,集中式資料庫主要圍繞以下四個性能進行優化和更新:1.原子性:為避免數 據庫中的操作執行出現糾紛,單個事務不可切割。例如,在轉賬操作中,要麼全部 執行,要麼失敗後恢複到前一狀态。2.一緻性:在事務開始之前和結束後,資料庫 的完整性限制沒有被破壞。這要求寫入資料庫的資料需符合預設規則,包括資訊的 精确度、串聯性以及可自發性完成的工作。3.隔離性:隔離性可以防止多個事務并 發執行時由于交叉執行而導緻資料的不一緻的問題。4.持久性:為防止意外事故(例 如斷電)導緻資料丢失,資料庫保證事務對其所作的修改被永久儲存。
總體而言,集中式資料庫技術發展曆史較長,以Oracle和IBM廠商為代表的産品性能 較為穩定。我們認為集中式資料庫性能成熟穩定的特點在小資料量,頻繁讀取的應 用場景中具有相對優勢。
4. 生态變化。國産的集中式資料庫與海外産品在性能和生态建設上仍有一定差距。與Oracle和 IBM較為成熟的資料庫産品相比,國内資料庫産品發展時間較短,且部分産品依賴 開源代碼開發,性能、安全性仍有一定差距。國内較多的集中式資料庫産品是基于 開源資料庫開發的。MySQL、PostgreSQL是較為流行的開源資料庫,其為集中式 架構的資料庫開發提供了較多資源。MySQL自釋出後被依次移植到各個平台,提供 完整的SQL支援并被逐漸拓展至事務處理,于2000年正式采用GPL協定開源。經過 近40年的發展曆程中,MySQL經過不斷被推廣優化,其生态發展已成熟完善,應用 基本覆寫所有行業。目前國内外衆多資料庫産品以MySQL開源版本開發,包括阿裡、 騰訊、華為開發的資料庫産品。
在傳統關系型資料庫領域,Oracle市占率較高,國産資料庫廠商持續追趕。根據IDC 的資料,2021年在本地部署模式下中國關系型資料庫市場,Oracle占市場佔有率為22%, 市占率排名第一。Oracle由于起步早,市場佔有率較大,在使用習慣、功能子產品及數 據庫語言方面已經對下遊客戶有較強粘性。是以,在國産替代過程中,較大比例的 客戶需從Oracle等海外廠商的産品遷移到國産資料庫。基于對資料遷移安全、穩定、 低成本的要求,國産資料庫對Oracle等海外資料庫各項功能的相容性是下遊客戶重要考量點。以達夢資料為代表的國産廠商的産品在兼具自主可控和資料平滑遷移的 能力基礎上,實作了部分場景對Oracle等海外廠商的國産替代。2019-2021年,達夢 資料營收分别為3.0億元、4.5億元和7.4億元,CAGR為56.5%,其中黨政領域客戶 貢獻營收占比分别為62.0%、67.9%和63.3%。
集中式架構的資料庫在大資料場景的應用空間有限。随着資料采集手段的不斷豐富, 資料處理量快速增長,資料類型不斷增多,對集中式資料庫技術層面的挑戰不斷增 大。在大資料的應用場景中,集中式架構的資料庫對海量、異構、多源資料的處理 能力不足,應用空間有限。我們認為,未來資料處理的增量市場以海量資料為主, 而集中式架構在這方面技術能力不足,相關公司的成長性和可成長的市場空間有限。 2011-2021年,Oracle營收增速CAGR為1.3%。未來,基于資料讀寫等基礎操作較 為穩定的特點,集中式資料庫公司在資料類型單一、資料處理量有限的場景中,仍 具有一定的應用空間。
(二)分布式資料平台較好的滿足了海量、多源、異構的資料處理需求
1. 技術架構。分布式大資料平台是将在實體上分散的多個資料庫連接配接組成一個邏輯上統一的系統 平台。其基本結構包括一個控制節點和多個資料與計算節點,控制節點負責整體資 源的排程、配置設定,資料與計算節點負責具體資料的存儲、處理和分析。基于并行協 作、資源共享的理念建構的分布式架構,在資料計算和存儲的整體性能上較集中式 架構都有較大提升。具體來看,分布式大資料平台具有以下特點: (1) 單機硬體性能要求較低,擴容成本較低:在分布式架構中,軟體平台可搭載 于普通的PC伺服器上,擺脫了對小型機、高端存儲等高價格硬體裝置的依賴。 由于搭載資料平台軟體的單台伺服器的成本較低,在計算叢集中節點擴容的成 本較低。
(2) 海量資料處理能力,擴容過程便捷:分布式架構采用多台伺服器,存儲和計 算資源天然比集中式架構的單台伺服器要多。此外,在資料快速增加接近存儲 資源和計算資源上限的情況下,使用者将新伺服器加入到資料庫叢集中,業務數 據可自動遷移到新機器上,系統自動的将流量切到新伺服器上,擴容過程快速 便捷。 (3) 多源資料融合處理和分析能力:不同節點的資料平台上可存儲和計算不同類 型的資料,各節點資料處理和分析的結果彙總和內建在控制節點後可實作多種 類型資料的融合分析,較好的滿足了業務複雜度高帶來的多源資料的處理需求。 (4) 維護難度較大,成本較高:分布式架構采用的計算叢集的模式需部署多台服 務器,大大增加了運作和維護的複雜度,進而增加了營運維護成本。
随着資料量和應用負載的快速增加,分布式大資料平台已成為資料處理和分析的主 流産品。
分布式大資料平台相較于資料庫産品在功能元件上有所增多。分布式大資料平台是 一個集資料接入、處理、存儲、查詢檢索、分析挖掘等為一體的平台。而資料庫是 按照資料結構來組織、存儲和管理資料的倉庫。相較于資料庫産品,大資料平台新 增了批/流計算引擎、資源調配器、中間件以及應用接口等更多元件。以Hadoop分 布式計算平台為例,其中最常用的三大元件分别為: (1) 分布式存儲系統 HDFS(Hadoop Distributed File System):其是架在本地 機器硬碟上的分布式檔案系統,在實體上采用分塊存儲(block)的方式存儲文 件,針對海量資料提供高可靠性、高擴充性和高吞吐率的資料存儲服務。
(2) 分布式計算架構 MapReduce:該計算架構将海量資料分拆為單個節點可以處 理的規模,分段統計後,再将統計結果合并到最終的結果中,完成大規模的數 據處理。其具有易于程式設計、高容錯性和高擴充性等優點。 (3) 分布式資源管理架構 YARN(Yet Another Resource Management):在系 統接收到具體資料處理的請求後,控制節點通過YARN的資料總管将計算、 記憶體、帶寬等資源配置設定給各計算與資料節點;YARN在各子節點中實時監控任 務執行和資源使用情況,并根據使用效率随時調配全局資源。
2. 商業模式。分布式大資料平台的收費模式分為兩種,一種是根據節點數量采用軟體一次性收費 的模式,另一種是根據節點數量的使用時長,采用按年/按月的訂閱制收費模式。 (1) 按節點數量,軟體一次性授權模式:以星環科技為例,公司根據每個節點上 安裝的不同的軟體産品類型,收取一次性的軟體授權費。2021年,其資料雲平 台TDC的均價為4.7萬元/節點,分布式分析型資料庫ArgoDB的均價為7.4萬元/ 節點。在這一模式下,客戶采購産品的驅動力主要在于持續擴容和滿足更複雜 業務功能的需求。
(2) 按節點數量的使用時長,訂閱制收費模式:以Cloudera公司為例,公司的核 心産品大資料平台CDH,其根據部署節點的數量按月/按年收費。在這種模式下, 即便客戶沒有采購伺服器的需求,客戶隻要在使用資料庫就需要支付費用。因 此,訂閱制的收費模式下,客戶粘性更高,營收的可持續性更強,客戶價值被 挖掘的空間更大。
在分布式大資料平台上公有雲的環境下,按使用量訂閱制收費的商業模式正在興起。 以MongoDB為例,MongoDB Enterprise Advanced分布式資料平台主要以本地化部 署的方式根據部署節點的數量按月/按年收費,其在2016年開發了MongoDB Atlas産 品,已搭載于亞馬遜AWS、微軟Azure和谷歌雲上提供“Database-as-a-service” 公有雲服務。具體服務包括搜尋服務、彈性存儲、資料可視化以及開發工具SDK等。 收費方式根據客戶對計算和存儲資源的使用量來進行收費。相較于按時長的訂閱制 模式,按照實際使用量的訂閱制收費模式,在更加精準的滿足業務需求的同時給客 戶帶來更好的成本節省,成本效益更高。2017-2021年,MongoDB Atlas-related業務 營收CAGR為158.6%,遠高于公司整體營收CAGR 51.5%。MongoDB Atlas-related 業務由2017年占營收比重6.6%快速提升至2021年占營收比重56.3%。
3. 下遊需求。資料量快速增長,海量資料的計算和存儲對軟體産品提出更高要求。海量資料的處 理涉及事務高并發、多模型融合以及多方資料安全協作等技術難題,對資料平台軟 件從性能上提出了更高要求。在資料處理量由TB級别提升至PB(約1000TB)級别 時,采用一個中央處理系統的集中式架構的資料庫産品存在存儲空間不足、高并發 響應速度慢以及等問題。與之相比,基于計算叢集的分布式架構,在資料計算和存 儲的整體性能上都有較大提升,更好的滿足了海量資料的處理需求。
多資料模型的融合分析處理是資料平台産品未來發展的方向。随着資料采集手段的 不斷豐富以及業務複雜度的增加,不同類型的資料存在被處理和分析的需求。關系 型資料庫在處理結構化資料時具備的一緻性、隔離性等原則難以應用在日志、音頻、 圖檔、文檔等半結構化和非結構化的處理過程中。常見的非結構化資料包括: (1) 鍵值資料:資料庫通過鍵-值(Key-Value)的方式來組織資料存儲,其中鍵是 唯一的辨別符。使用者隻需輸入單個鍵,系統即可傳回其對應的唯一值,通過這 種方式大大提升了資料的讀寫速度。該類型資料可應用于Web應用程式和繪畫、 記憶體中的資料緩存以及購物車等場景。
(2) 寬表資料:資料庫以行鍵唯一辨別表中的列,其一行中包含大量動态列,可 以了解為二維的鍵值資料,在部分列操作、資料壓縮和資料過濾過程中有很好 的效果。該資料類型可應用于時間序列、曆史記錄以及地理資訊等場景的處理。 (3) 文檔資料:以JSON、BSON、XML等文檔格式存儲群組織資料庫。由于文檔 沒有一緻的格式,是以其具有至關的資料模型、動态靈活的架構以及橫向可擴 展的優勢。該資料類型可應用于内容管理、目錄和日志檔案的管理場景中。 (4) 圖資料:圖結構的資料主要是通過節點、邊、标簽和屬性等方式來存儲資料,較好的模拟了現實世界中具有複雜關系的實體,具有靈活、可擴充性和高性能 的特征,可應用于社交網絡、知識圖譜以及搜尋引擎等場景中。
分布式資料庫較好的滿足多源、異構的資料處理需求。在異構的分布式資料庫中, 不同的節點可采用不同的資料模型、資料管理工具、作業系統和硬體。各子節點通 過應用程式接口、全局模式和聯邦計算等方式實作不同資料類型的資訊共享及融合 分析。
4. 生态變化。 Hadoop是Apache軟體基金會下的開源分布式計算平台項目,實作在計算叢集的環 境中對海量資料進行分布式計算。2003年由谷歌發起至2006年正式引入Apache基 金會成為獨立的軟體開發至今,其已經經曆了近二十年的發展曆程。Hadoop的生态 已發展成熟,國内外衆多大資料平台産品都是基于Hadoop的開源代碼開發的,包括 Cloudera公司的CDH、阿裡雲EMR、華為FusionInsight、新華三DataEngine等産品。 其開發人員也将自研的代碼向Hadoop項目共享。目前,Hadoop的代碼送出次數超 萬次,代碼數量超過百萬行。Hadoop已成長為海内外知名度較高的大資料開源項目。
相較于集中式資料庫,大陸在分布式資料庫領域與海外廠商的性能、生态方面的差 距較小。從技術演進角度而言,大陸分布式架構技術與海外公司發展曆史相當。基 于Hadoop等開源生态,國産分布式資料庫快速開發和疊代,且在金融、公共部門、 能源等行業商業化落地過程中持續打磨産品性能。我們認為,未來,在重點行業對 資料處理和共享環節提出安全可靠,自主可控等高要求的背景下,國産分布式資料 庫産品有望迎來發展機遇,實作市場佔有率的快速擴大。
國産廠商紛紛推出分布式大資料平台産品,提升大資料處理的綜合能力。除了分布 式資料庫以外,國産廠商還開發了包括計算引擎、分析工具等元件在内的分布式大 資料平台。相較于自研的資料庫産品,大資料平台産品的定位更為綜合。國産廠商圍繞資料接入、處理、存儲、查詢檢索、分析挖掘等資料全生命周期提供更加綜合 的功能。各廠商的大資料平台主要是在Hadoop為主的開源技術的基礎上,進行了不 同程度的自研開發。我們認為,采用開源技術比例較高的大資料平台産品,其功能 同質化較強,産品競争力較弱;未來自研技術是保持産品競争力的核心因素。
(三)雲原生資料平台實作了資料計算和存儲資源的彈性管理
1. 技術架構。雲原生架構通過計算和存儲分離,大大提升了資源利用效率。基于Hadoop開源技術 的分布式架構在硬體層面的計算和存儲資源是耦合,在叢集擴容時,同一個節點中 的計算和存儲資源是同比例增加的。然而企業在計算和存儲資源上的擴充需求往往 并不同步:計算資源通常僅需在負載高峰期進行擴充,而存儲資源的擴充一般是長 期、線性的過程。企業無法按需獨立擴充計算和存儲資源,必然帶來資源的浪費。 而雲原生的資料平台可以做到計算資源和存儲資源在硬體層面分離,支援計算、存 儲節點單獨擴容,實作資源更加精細化的管理。具體來看:
(1) 存算分離有效提升資源使用率:計算和存儲資源在硬體層面實作分離,解決 了計算和存儲資源擴容節奏不同步的問題。在資料互動、分析、安全等子產品與 容器等底層架構适配的基礎上,雲原生架構的資源排程更具彈性,對資源的動 态管理更加靈活、精細。 (2) 應用接口函數化,降低開發和應用的複雜度:雲原生架構将各類資料應用資 源封裝成各種服務,例如資料統計、流程處理、機器學習等能力封裝成函數接 口,供使用者使用。使用者根據實際業務需要,調用部分功能元件即實作目标功能, 有效降低開發和應用的複雜度。雲原生架構使得客戶可以更加專注于業務本身, 而無需關注部署和運維,大大提升了應用開發效率。
(3) 應用輕量化,減少應用負載。雲原生架構将非業務功能從SDK中分離出來放 入獨立程序,并利用容器共享資源的特性将其下沉至基礎設施。非業務資源的 解耦分離使得應用負載大幅減負,使得應用資源更加集中于業務邏輯本身。
2. 商業模式。雲原生資料庫基于公有雲的計算和存儲資源,按照實際資源使用量收費。以 Snowflake為例,其推出的雲上資料倉庫Data Cloud根據使用者使用虛拟倉庫的數量和 時間的長短進行收費,存儲則是按每個月的TP單獨計費。這種收費模式的出發點就 是利于雲計算的無限擴充能力,以最小成本為客戶解決建立數倉的任務,讓客戶隻 為實際使用的資源付費。我們認為,該商業模式根據客戶對計算和存儲資源的使用 量來進行收費,在更加精準的滿足業務需求的同時給客戶帶來更好的成本節省,性 價比更高。
3. 下遊需求。在分布式資料庫基本滿足海量、多源、異構資料處理的基礎上,使用者對資料庫的可 獲得性、易用性和安全性提出了更高要求。随着雲計算的普遍應用,基于公有雲部 署的資料庫為客戶節省了硬體采購、安裝部署及調試運維等操作,大大降低了使用者 使用資料處理工具的門檻。通過存算分離、應用接口函數化及輕量化等架構和功能 的改造,雲原生的資料庫減少非業務上的資源消耗,使得使用者可以更加集中于業務 本身。此外,由于資料不能實作跨雲傳輸,下遊客戶往往集中選擇某一家雲廠商存 儲資料。以Snowflake為代表的第三方資料庫公司在搭載了AWS、谷歌雲和微軟 Azure等多個雲平台的情況下,實作了多雲的資料共享,滿足了全球性跨國公司不同 地域的業務營運和監管的要求。
4. 生态變化。Kubernetes開源技術給雲原生相關技術開發提供豐富資源。Kubernetes是繼 Google内部大規模使用Cgroups容器技術後的容器管理方式,為現代雲原生奠定生态基石。自2014年成立起,Kubernetes項目将從API到容器運作的每一層都為開發者留出了可擴充的插件機制,項目得以快速發展;2015年,Google、Redhat及微軟等大型雲計算廠商共同成立CNCF雲原生基金會,托管Kubernetes開源項目,雲原生生态加速演進。經過多年的發展,以容器為基礎編排對象逐漸豐富延展至虛拟機、函數和衆多含API、可程式設計、可抽象成資源的對象,Kubernetes為核心的雲原生技術棧也在應用場景廣泛推廣。目前,已有超過百家公司開發和使用Kubernetes開源技術,國内騰訊雲、阿裡雲均是基于其生态打造的雲原生産品。
(四)技術和商業模式創新驅動大資料行業新舊更疊
随着資料處理需求由單一資料類型、有限量的資料向海量、異構、多源的資料變化, 技術架構由集中式向分布式更新,再向雲原生演進。在這一過程中,引領技術革新 和商業模式創新的公司快速成長,而固守陳舊技術和商業模式的公司成長動力不足。
集中式資料庫公司成長動力不足。集中式架構的資料庫對大資料的處理能力不足, 應用空間有限,相關公司近年來的增長動力不足。以Teradata為例,其基于集中式 架構的MPP資料庫對于海量資料的處理能力有限。Teradata有較大比例營收來自于 咨詢服務以及一體機等定制化硬體的銷售,其在商業化落地過程中存在硬體價格昂 貴、産品品類單一以及技術服務占比較多等問題。近年來,公司商業模式逐漸轉向 基于公有雲的SaaS服務,但其轉變的節奏較慢。公司技術和商業模式落後于同行, 其營收規模呈現出下降的趨勢。Teradata的營收由2011年的23.6億美元下降到2021 年的19.2億美元;2011-2021年,Teradata的營收增速CAGR為-2.1%。
分布式架構的大資料技術持續疊代,創新産品商業化落地驅動公司高成長。随着數 據量和應用負載的快速增加,近年來分布式大資料平台已成為資料處理和分析的主 流産品,相關公司快速增長。部分科技初創公司針對于大資料應用的新興場景,開發出的分布式資料庫取得了比較好的商業化落地效果。MongoDB針對于文檔資訊開 發的分布式資料庫解決了文檔資料備援度較大、存儲空間浪費以及運維困難的問題, 在各行業中獲得了廣泛應用。2018-2021年,MongoDB營收CAGR為48.5%。Elastic 針對于各大網站的搜尋需求,提供分布式實時全文搜尋及分析工具,在網際網路行業 中得到了廣泛應用。2018-2021年,Elastic營收CAGR為47.0%。
雲原生架構實作了在技術和商業模式兩個次元上的創新,引領未來發展趨勢。在大 資料行業,Snowflake是較早實作雲原生技術的公司,在2014年上AWS上推出存儲 和分析服務,2018年在微軟Azure、2019年在谷歌雲上開始提供服務。Snowflake 在實作多雲環境下,計算和存儲分離的雲原生技術具有較強優勢。其通過解決資料 存儲位置不一緻、查詢/回報時間不同步、通信傳輸延遲等問題,實作了多雲平台的 快速資料聯通和共享。
此外,其推出的根據計算和存儲資源使用量來收費的商業模 式給雲計算廠商和使用者都帶來了較好的成本節省,有效提升了資源的使用率。技術 和商業模式兩方面的創新驅動了Snowflake公司的高增長。Snowflake的營收由2018 年的9667萬美元快速成長到2021年的12.2億美元;2018-2021年,Snowflake的營 收CAGR為132.8%。在其引領下,在美國的第三方資料庫公司上雲已是大勢所趨。
二、資料庫廠商與雲計算公司競合關系的差異與變化
中美軟體上雲環境不同,造成了資料庫技術發展和商業化落地上的差異。在美國, 資料平台公司推出的基于公有雲的資料平台産品快速落地,包括Snowflake的Data Cloud,Cloudera的CDP以及MongoDB的Atalas。而與之相比,中國的資料平台類 軟體公有雲上雲率不高,主要以私有雲或本地建設的方式部署。我們認為,其主要 原因在于中美上雲環境不同。在美國,在資料隐私保護相關法律更為健全的情況下, 經過多年市場培育,下遊客戶已形成按使用時長付費習慣。在中國,國企、央企和 金融機構等對于資料安全有較高要求,大型企業對公有雲的接受度不高,訂閱制付 費模式的市場培育不成熟。接下來,我們通過對比中美公有雲上雲環境,來分析中 國資料平台市場商業化落地的發展趨勢。
(一)美國公有雲SaaS服務較為普及,第三方資料庫公司借雲興起
美國軟體上雲率較高,SaaS服務覆寫面廣闊。美國SaaS公司起步早,市場培育時 間較長。2000年初,以Salesforce為代表的美國公司首創并持續推廣SaaS服務模式, 充分發揮了訂閱制模式的使用者粘性強、長期價值高、維護成本低等優勢。此外,美 國通過立法的方式為雲計算行業提供了比較好的外部環境。2011-2015年,美國陸 續通過了《電子通信隐私法案》、《網絡安全資訊共享法案》等,為使用者隐私和信 息安全提供法律保障。在這種背景下,包括資料庫在内的應用軟體基于公有雲提供 SaaS服務在美國快速滲透。根據Statista的資料,2020年,美國SaaS行業市場規模 為920億歐元;與之相比,中國SaaS行業市場規模為40億歐元。根據Lakta的資料, 2022年,美國SaaS公司數量為1.7萬個,中國SaaS公司數量為702個。
充分利用雲廠商的IaaS資源,第三方資料庫廠商推出的SaaS服務實作了合作雙赢。 Snowflake公司于2015年推出的資料倉庫産品搭載于亞馬遜AWS上,開創了資料庫 商業化落地的新模式。從亞馬遜的角度,使用者在使用Snowflake資料倉庫産品時,也 使用了AWS的存儲資源,可以導流較多的客戶,拓寬了客戶覆寫面。Snowflake的客戶數量由2018的948個增長到2021年的5944個,CAGR為84.4%。從Snowflake 的角度,公司不僅可以通過AWS快速推廣雲原生的資料倉庫産品實作快速成長,還 節省了資料平台中存儲元件的開發成本。Snowflake的營收由2018年的9667萬美元 增長到2021年的12.2億美元,CAGR為132.5%。通過這樣的方式,第三方資料庫公 司和雲計算廠商形成了雙赢的合作模式。在美國,資料庫産品上雲已是大勢所趨。
海外雲廠商對獨立第三方公司持有較為開放的态度。海外的雲計算廠商專注于IaaS 層算力資源利用的提升和優化,在其基礎上的SaaS服務,采取部分自研,部分開放 接口給第三方應用軟體公司共同開發。引入多方合作夥伴,集思廣益,共同開發的 生态建構的理念在海外雲計算廠商中較為普及。2022年,亞馬遜AWS給合作夥伴開 放的Marketplace平台提供了65個品類,超過1.2萬個軟體,訂閱使用者超過200萬個, 活躍使用者達到了32.5萬。這些軟體來自全球超過2000個軟體供應商、260多家資料 供應商以及900多家咨詢合作夥伴。資料庫作為重要的基礎類軟體,各雲計算公司積 極引入包括Snowflake Data Cloud、Cloudera CDP以及MongoDB Atalas等第三方 資料庫産品。
亞馬遜AWS、谷歌雲和微軟Azure已成為資料庫廠商上雲的主要平台。第三方資料 庫公司通過Marketplace給雲計算廠商導流客戶,提高營收規模的效果較為明顯,在 這種情況下,開放了Marketplace的海外的雲計算廠商已占據雲資料庫較高的市場份 額。阿裡雲由于其有一定比例的海外雲服務業務,開放了Marketplace給第三方資料 庫公司入駐,但入駐的資料庫公司數量和規模較小。 中美上雲環境的不同,中國雲計算廠商給第三方廠商開放的雲市場合作力度有限。 國内的雲計算廠商提供的公有雲服務主要面向國内市場。國内公有雲市場存在大型 企業采用SaaS服務的意願不高,上雲的中小企業持續付費能力有限以及客戶定制化 需求較多等問題。我們認為,由于中美公有雲上雲環境的不同,中國的第三方資料 庫廠商入駐公有雲平台後能夠給雲廠商導流的客戶數量有限、規模較小。
(二)中國資料庫市場公有雲上雲率較低,短期内仍以本地部署為主
在中國市場,應用級軟體公有雲上雲率較低,SaaS服務滲透率較低。根據IDC的數 據,2021年,全球雲計算市場按不同類型分類,SaaS服務占比為61.0%。根據中國 信通院的資料,2021年,大陸的SaaS服務占雲計算整體市場比例為17.0%。我們認 為,在中國,基于公有雲提供應用級軟體的SaaS服務面臨以下困境: 1. 大型企業采用SaaS服務的意願不高:國企、央企以及金融機構的業務普遍涉及 敏感資料,對資料安全具有較高要求,考慮資料安全的權重高于由于公有雲部署 帶來的成本節省。雖然大陸對資料安全保護有出台相關法規,但是仍缺少實施細 節和強制性要求。2015年,大陸頒布了《國務院關于促進雲計算創新發展培育 資訊産業新業态的意見》,強調了雲計算産業發展中使用者隐私資料的安全保障。 但是關于資料安全保障的實施細節并未做詳細規定。
2. 選擇上雲的中小企業持續付費能力有限:根據海比研究院的資料,2021年,我 國SaaS服務的客單價分布中,年付費5-10萬的中型企業占比達27%,5萬以下小 微企業占比達32%。選擇SaaS服務的企業客戶以制造業、網際網路和軟體行業的 中小企業為主,其持續付費的能力和意願有限。3. 客戶定制化需求較多:從雲廠商的角度,SaaS模式的優勢在于其是基于标準化 産品提供的線上服務來節省維護和傳遞的成本。但國内的下遊客戶的個性化需求 較為普遍。SaaS廠商常因輔助客戶落地而被迫提升成本,亦或是在不能滿足客 戶個性化需求時,導緻客戶流失。 基于以上因素,我們認為在國内的市場環境,資料庫和資料平台通過公有雲部署提 供SaaS服務仍需要市場培育、産品打磨以及産業鍊的協作整合。短期内,私有雲或 本地化部署仍然是國内資料庫和資料平台産品部署的主要方式。
網際網路、公共部門、金融三大領域對大資料處理和分析的需求較高。從分行業需求來看,網際網路應用中産生的多源、海量資料的處理需求占比較大。此外,在公共部門、金融等領域數字化轉型更新過程中,圍繞資料存儲、計算和運維的需求快速增長,使用者對資料平台等軟體産品采購預算增加的趨勢逐漸明确。另一方面,公共部門、金融等行業基于對資料安全考慮,對于IT基礎設施公有雲部署的接受度較低。我們認為,短期内,公共部門、金融、工業、醫療等國内企業客戶對資料庫和資料平台産品的部署方式仍以私有雲或本地化的方式為主。
雲計算公司采用部分自研,部分托管開源資料庫的方式提供資料庫服務。MySQL、 PostgreSQL、HBase等開源資料庫的源代碼對外開放,給雲計算廠商提供了豐富的 開發資源。雲計算公司在自研資料庫産品的過程中較多參考了開源資料庫的代碼和 元件。例如,華為參考了MySQL、Cassandra以及Influx的源代碼,修改開源軟體中 的部分子產品後推出自研的GaussDB,大大減少了開發成本和周期。此外,雲計算公 司通過将開源資料庫托管于雲平台上的方式,拓展産品品類和客戶覆寫面。我們認 為,開源資料庫雖然給雲計算公司節省了開發成本、拓寬客戶覆寫面,但在易用性、 配套能力以及版本更新方面存在一定缺陷。雲計算廠商基于開源資料庫開發和托管 的資料庫産品,難以滿足公共部門、金融機構以及國企等客戶對于資料安全可靠、 快速響應以及個性化定制的需求。
資料庫開源協定存在收緊的趨勢。近年來,由于雲資料庫托管服務擴張,企業客戶 逐漸流向了雲廠商的資料庫平台,導緻開源社群活躍度下降,對開源生态造成了較 大影響。在這種背景下,較多的開源資料庫收緊了開源協定,限制其開源代碼的商 業化。部分開源資料庫修改為更嚴格的許可協定限制商業化,部分企業對其提供的 免費版本的開源資料庫進行收費。例如,自2021年1月起,Cloudera推出的CDH 6.3.3 版本開始即隻有收費版本,沒有免費版本。我們認為,資料庫開源協定收緊對于普 遍采用開源資料庫研發或托管産品的雲計算廠商或造成一定影響。雲計算廠商的數 據庫産品在疊代更新、營運維護以及相容适配方面或存在成本上升的可能。
在中國市場,雲計算廠商持續開發疊代自研的資料庫,與第三方資料庫公司競争大 于合作。國内公有雲市場存在大型企業采用SaaS服務的意願不高,上雲的中小企業 持續付費能力有限等問題。這導緻了第三方資料庫廠商入駐公有雲平台後能夠給雲 廠商導流的客戶數量有限、規模較小。雲廠商與第三方資料庫公司合作的意願不高。 另一方面,雲計算公司持續研發投入,其雲原生、湖倉一體等前沿技術持續進步。 憑借其在雲計算基礎設施、應用生态、使用者管道等方面的優勢,雲計算公司的資料 庫産品在各場景中快速落地,線下市場的營收規模快速增長。我們認為,目前在國 内以私有雲和本地化部署方式主導的資料庫市場,雲計算公司與第三方資料庫公司 互相競争大于合作互補。
第三方資料庫廠商技術原創性更強,産品布局更廣闊。以網際網路和伺服器廠商為代 表的大型科技公司,其大資料平台主要基于開源的底層技術,通過不同程度的優化, 在軟體應用層面增加了部分自研子產品。與之相比,以星環科技為代表的第三方資料 庫公司在開源技術的基礎上,對資料存儲層、計算引擎層、編譯器層、資源管理層 等核心功能進行了重構,基本實作底層技術的自主研發。截止2021年11月,星環科 技核心産品大資料基礎平台TDH代碼自主率為74%;截止2022年5月,分布式分析 型資料庫産品ArgoDB的代碼自主化率為91%。我們認為,星環科技的大資料産品自 研占比較高,更加滿足在部分場景自主可控、安全可靠的要求。此外,星環科技的 技術原創性更強,自研的元件和産品更加豐富,下遊應用場景覆寫面更廣。
大型科技公司占市場佔有率較大,星環科技持續追趕。在國内大資料平台軟體市場, 與華為雲、阿裡雲等公司相比,星環科技整體經營規模較小。大型科技公司資本優 勢明顯,産品布局較為全面,可以組合多種數字化軟硬體産品向客戶進行銷售。其 中,雲廠商可以公有雲服務業務為核心,協同其客戶資源網絡,帶動大資料等業務 的開拓。傳統ICT廠商通過為金融、政府等大型客戶提供資訊化數字化的整體解決方 案,積累了一定的客戶資源。星環科技雖然規模較小,但發展速度較快,2018-2021 年,星環科技營收CAGR為43.1%。
根據IDC的資料,在中國大資料平台軟體的市場佔有率排名中,2020年星環科技排名 第4;2021年上半年星環科技排名第7。2021年上半年,星環科技排名下滑的主要原 因是其在第四季度确認的收入占比較高,而雲計算廠商的資料平台産品收入有一定 比例是通過公有雲SaaS模式實作的,營收在全年的分布較為平均。2019-2021年,星環科技第四季度營收占全年營收比例分别為41.4%、60.7%和58.5%。
(三)中國大資料産業商業化落地未來發展趨勢展望
雲計算公司各領域生态持續拓展,與第三方公司合作潛力較大。随着雲計算公司業 務覆寫面的拓寬以及産品線的延長,其在各個技術應用領域的專注度不及獨立第三 方公司。是以,各個雲廠商積極尋求各領域的合作夥伴。例如,騰訊打造的雲市場 生态,旨在各領域尋找與自身能力合作互補的廠商共同促進商業化落地。我們認為, 若第三方資料庫公司的産品具有足夠的競争力,可以實作對相關軟硬體基礎設施的 連帶銷售效果,雲計算公司與其實作資源互補、産業合作的可能性将大大增加。2020 年5月,星環科技與華為正式簽署備忘錄,圍繞星環大資料平台與華為海量資料存儲 進行聯合解決方案開發、市場培育和産業推進,共建資料基礎設施。
國内第三方資料庫公司已入駐雲平台。2022年6月,分布式資料庫公司PingCAP與 阿裡雲達成合作,其雲資料庫TiDB正式上線阿裡雲心選商城。TiDB基于分布式架構, 具備高并發處理、融合分析及相容MySQL開源協定的特性,已應用于全球超過2000 家企業。雲資料庫TiDB是PingCAP與阿裡雲雙方聯合,進行深度內建和性能優化推 出的産品,實作了叢集快速部署、便捷擴容,為使用者提供便捷、彈性的資料存儲和 計算服務。我們認為,随着國内第三方資料庫公司産品影響力的持續擴大,其下遊 客戶規模快速增長,其上雲後給雲計算廠商帶來的客戶導流效果有望增強。海外雲 計算廠商與第三方資料庫公司結合優勢資源,實作合作共赢的模式有望在國内展開。
部分第三方資料庫公司已具備上公有雲的技術條件。從技術角度,國内第三方資料 庫公司已在雲原生架構領域具備一定的技術積累。星環科技開發的TDC産品是基于 容器技術的資料雲平台,其可通過納管IaaS主流平台為上層PaaS及使用者提供資料湖、 資料倉庫、搜尋引擎、實時計算、資料科學平台、交易資料庫等服務,滿足客戶對 資料平台的多租戶、彈性可擴充和使用靈活性的要求。我們認為,部分第三方資料 庫公司已具備上公有雲的技術條件,未來,若其與雲計算公司在商業化落地方面形 成資源互補、達成合作共識,則第三方資料庫上雲的商業化程序有望快速落地。
三、星環科技
(一)技術原創性強,産品自主可控,與國産生态适配性強
公司專注于大資料領域,技術原創性強,産品矩陣完整。公司成立于2013年,其核 心研發團隊曾任職于英特爾,在英特爾基于Apache Hadoop 1.x技術研發開源的 Hadoop發行版産品,是行業中較早探索、研發大資料技術的團隊。在具有一定技術 積累的基礎上,公司通過自研大資料技術逐漸取代開源技術,經過多年的發展,軟 件産品自主率行業領先。截止2021年11月,其核心産品大資料基礎平台TDH代碼自 主率為74%。此外,相較于資料庫産品,公司開發的大資料平台産品的定位更為綜 合。面向資料接入、處理、存儲、查詢檢索、分析挖掘等全生命周期,公司已形成 大資料與雲基礎平台、分布式關系型資料庫、資料開發與智能分析工具的軟體産品 矩陣,産品在金融、能源、電信、交通等行業廣泛應用。
公司大資料産品在開源技術的基礎上進行了較大比例的自研開發,技術壁壘較高。 公司在開源技術的基礎上,進行了較大比例的自研開發工作,其大資料産品在高并 發事務處理、多模型融合分析以及多方資料安全協作等方面具有較高的技術壁壘。 公司對開源技術的核心元件實作了自研替換,包括YARN資源排程元件、Storm流處理元件以及HDFS分布式存儲管理系統。公司自研的大資料平台産品采用分布式、雲 原生等技術,不僅在逐漸替代傳統的關系型資料庫産品,而且在部分應用場景中實 現了對Cloudera和Oracle等海外公司資料庫産品的國産替代。
公司的大資料和資料庫産品與國産軟硬體基礎平台産品有較強的适配性。公司完成 了和多個國産硬體平台的适配,支援在一個叢集内允許多個不同的硬體架構(如X86 架構和國産鲲鵬、飛騰、龍芯等架構)混合部署,能夠更好的讓使用者實作逐漸的國 産化替代程序。分布式分析型資料庫ArgoDB已經完成和飛騰、鲲鵬等國産硬體及麒麟、UOS 等國産作業系統的深度适配。分布式交易型資料庫KunDB支援X86與各種 國産晶片架構,以及CentOS、RedHat、UOS、麒麟等國内外主流的作業系統,能 夠運作在異構CPU架構以及多種作業系統混合部署的叢集環境中。我們認為,公司 在國産軟硬體生态的适配性具有相對優勢,預計将受益于金融、電信等行業資訊系 統的國産替代程序。
公司的大資料産品較好滿足公共部門數字化轉型的需求。随着公共部門數字化轉型 的深化,政務資料體系存在統籌管理機制不健全、供需對接不順暢、共享應用不充 分、标準規範不統一、安全保障不完善等問題。2022年9月,國務院印發了《全國 一體化政務大資料體系建設指南》,提出了加強資料彙聚融合、共享開放和開發利 用的要求。我們認為,公司的大資料平台産品具備的多源異構資料融合分析能力較 好的滿足了政務資料融合聯通的需求,未來有望受益于政務大資料體系建設。公司 在政務資料平台領域已具有一定項目經驗。例如,公司給上海市大資料資源平台提 供的資料雲平台TDC産品支撐全市資料的歸集,為各類資料治理工作提供多樣化存 儲和計算能力,保障對外服務的時效性、可靠性,提升上層資料應用的安全性。
公司營收快速增長,金融和公共部門行業客戶貢獻營收較大。公司營收由2018年的 1.1億元增長至2021年的3.3億元,CAGR為43.1%。在金融、公共部門和能源等行業 數字化轉型的需求旺盛的背景下,公司推出的大資料基礎平台TDH、資料雲平台TDC 等産品較好的滿足了海量、異構、多源資料處理和分析的需求,相應産品在各行業 快速滲透,帶動營收快速增長。2022年前三季度,公司營收1.7億元,同比增加24.8%。 分行業來看,2021年,金融和公共部門客戶貢獻營收分别為1.4億元和9232萬元, 占營收比重分别為42.6%和27.9%。
1. 在金融領域,公司不僅提供資料倉庫、資料分析等常用的大資料産品擴大客戶覆 蓋面,還拓展了智能風控、隐私計算等業務,深度挖掘客戶價值。公司已覆寫監 管機構、交易所、銀行、證券公司等金融機構。2021年,金融領域客戶貢獻營收同比增長35.8%。 2. 在公共部門領域,公司的大資料産品有效推動資料基礎設施的建構,滿足了政務 資訊化、民生服務、社會治理、市場監管等相關應用需求。2021年,公共部門 領域客戶貢獻營收同比增長54.8%。 3. 此外,在能源領域,公司大資料産品在國家電網、南網集團等公司落地,推動其 數字化轉型。2021年,能源領域客戶貢獻營收3552萬元,同比增長36.7%,占 營收比重為10.7%。
公司已在多個行業實作了國産替代。相較于海外競品,公司在技術架構、SQL相容 性、存儲管理系統方面實作了較大的技術進步,對Oracle、Elastic以及Cloudera等 公司的大資料産品實作了國産替代。公司的大資料基礎平台TDH、分布式分析型數 據庫ArgoDB以及智能分析工具Sophon已在金融、能源、制造、交通等多個行業實 現了關鍵資訊系統的國産替代。2019-2021年,公司具有國産替代功能相關軟體産 品收入分别為1.1億元、1.3億元和1.8億元,占總營收比重59.4%、42.4%和42.2%。
(二)大資料基礎平台是營收主力,标準化軟體産品授權占比有所提升
大資料基礎平台業務是營收主力,産品傳遞以軟體授權為主。在數字化基礎設施建 設過程中,公司主要為客戶提供數字化基礎設施底層、中間層的基礎軟體和技術服 務,支援客戶進行數字化轉型。公司具體主要提供以下産品和服務:1. 大資料基礎 軟體業務包括大資料與雲基礎平台、分布式關系型資料庫、資料開發與智能分析工 具等标準軟體及配套技術服務,以軟體産品授權的方式傳遞為主,毛利率較高。2021 年,該業務營收2.6億元,同比增長18.4%,占營收比重為79.9%。2. 應用與解決方 案,主要針對具體應用場景,提供大資料存儲、處理以及分析等相關場景下的咨詢 及定制開發等服務的解決方案。3. 此外,公司根據客戶及項目需求銷售少量第三方 軟體、硬體等其他業務。
公司的大資料基礎平台産品主要按照節點收費。在分布式架構中,一個計算節點一 般對應一台伺服器。在軟體産品授權模式下,公司的大資料基礎軟體主要按照節點 數量收費。大資料基礎平台TDH作為公司成熟的産品品類,功能全面,性能優異, 其銷售量較大且呈現逐年增長的趨勢。2021年,TDH銷售節點數量為5416個,同比 增長40.7%;TDH均價1.43萬元/節點,較2020年的單價也有所增長。相較于TDH, 其他産品的單節點均價更高,但銷量仍處于爬坡過程中。2021年,TDC、TDS、Sophon、 ArgoDB和KunDB的單節點均價分别為4.7萬元、1.9萬元、7.3萬元、7.4萬元和4.1 萬元。公司在金融、公共部門、能源等領域已經具有一定的使用者粘性。我們認為, 單價更高的軟體産品有望實作在老客戶中的拓展銷售,進而提升單客戶價值。
2021年,公司軟體産品授權收入占總營收比重有所提升。2021年,公司軟體産品授 權收入為1.2億元,同比增長61.4%,占營收比重為35.9%。2019-2021年,公司軟 件産品授權及配套服務業務占營收比重分别為49.6%、30.5%和20.7%。我們認為, 公司産品在商業化落地過程中,偏定制化的配套服務占比正逐漸減少,标準化軟體 産品傳遞的營收占比有望持續提升。
公司軟體産品及技術服務業務毛利率逐年上升。軟體産品授權過程基本隻涉及産品 安裝和傳遞,不涉及技術服務,是以其毛利率較高。2019-2021年,軟體産品授權 毛利率分别為96.9%、97.2%和97.3%。此外,随着軟體産品标準化程度及客戶IT技 術水準逐漸提高,公司提供的安裝服務成本逐年下降。2019-2021年,軟體産品授 權及配套服務毛利率分别為51.8%、58.1%和61.4%,呈現出逐年提升的趨勢。總體 而言,随着标準化軟體産品占總營收比重逐漸提升,公司的軟體産品及技術服務業 務毛利率逐年上升。2019-2021年,軟體産品及技術服務業務毛利率分别為64.4%、 66.3%和71.8%。
(三)營收現階段以大資料平台各元件為主,資料庫營收快速增長
公司現階段的營收來源以大資料計算引擎、分析元件為主。公司各軟體品類中,大 資料基礎平台TDH占總營收比例較大。分拆來看,其各元件中實作營收較多的以關 系型分析引擎Inceptor、實時流計算引擎Slipstream以及科學計算平台Sophon Discover等元件為主,而寬表資料庫Hyperbase、圖資料庫StellarDB等資料庫産品 實作營收占比較低。我們認為,計算引擎、分析元件等大資料平台關鍵核心元件是 公司過去的研發重點。經過多年疊代,核心元件的性能已具有較強競争力,是營收 主力。
公司大資料平台代碼自主化率較高,技術原創性更強,自研元件品類豐富。公司在 開源技術的基礎上,對資料存儲層、計算引擎層、編譯器層、資源管理層等核心功能進行了重構,基本實作底層技術的自主研發。根據工信部電子五所出具的《代碼 掃描測試報告》,截止2021年11月,其核心産品大資料基礎平台TDH代碼自主率為 74%;截止2022年5月,資料雲平台TDC代碼自主率為73%。我們認為,相較于國 内外廠商,公司的大資料産品自研占比較高,更加滿足在部分場景自主可控、安全 可靠的要求。此外,公司的技術原創性更強,自研的元件和産品更加豐富,下遊應 用場景覆寫面更廣。
TDH、ArgoDB和Sophon等産品已實作部分場景的國産替代。TDH和ArgoDB産品 不僅憑借分布式架構的優勢對傳統資料庫Oracle、IBM DB2以及Teradata等傳統數 據庫實作了較好的替代,還以較高的成本效益和安全性實作了Ealstic Search、CDP等 海外分布式架構資料産品的替代。此外,公司開發的智能分析工具Sophon自2014 年至今持續疊代,其内置的分布式統計算法、機器學習算法可實作在大資料集上高 校的複雜統計和預測性分析,對于海外智能統計分析工具SAS有較好的替換效果。 目前,公司的大資料基礎平台TDH、分布式分析型資料庫ArgoDB以及智能分析工具 Sophon已在金融、能源、制造、交通等多個行業實作了關鍵資訊系統的國産替代。
公司資料庫營收快速增長,占總營收比重持續提升。在軟體産品授權模式下,2021 年,公司的寬表資料庫Hyperbase、搜尋型資料庫Scope、分析型資料庫ArgoDB、 圖資料庫StellarDB和交易型資料庫KunDB分别實作營收1036萬元、1030萬元、839 萬元709萬元和101萬元。各資料庫産品雖然營收規模較小,但其增速較快。 2019-2021年,在軟體産品授權模式下,公司資料庫産品實作的營收分别為1644萬 元、2332萬元和3716萬元,營收CAGR為50.3%。我們認為,公司的研發采取自底 向上、由核心到應用的政策,在底層核心元件實作較大比例自研的情況下,未來有 望向各資料庫研發投入更多資源。各類資料庫産品功能不斷完善、性能持續提升, 其實作的營收有望保持快速增長趨勢。
公司分布式資料庫産品代碼自主化率較高,在國産替代方面更具優勢。根據工信部 電子五所出具的《代碼掃描測試報告》,截止2022年2月,交易型資料庫KunDB代 碼自主率為74.3%;截止2022年5月,分析型資料庫ArgoDB代碼自主率為90.6%。 我們認為,公司的資料庫産品自研占比較高,更加滿足在部分場景自主可控、安全 可靠的要求,在對海外産品進行國産替代過程中具有相對優勢。2021年3月,中央 國家機關政府采購中心釋出關于中央國家機關2021年資料庫軟體協定供貨采購項目 成交公告,公司ArgoDB和KunDB已入圍資料庫管理系統供應商名單。
公司的寬表資料庫Hyperbase、圖資料庫StellarDB等非關系型資料庫推出時間早、 疊代時間久,具有較強的競争力,營收規模相對較大。公司的關系型資料庫ArgoDB 和KunDB分别于2018、2019年推出,其更新疊代時間較短。此外,在分布式關系型 資料庫領域,華為的GaussDB、阿裡雲的OceanBase通過自研開發,持續疊代,已 具備一定技術積累。雲計算公司憑借軟硬體基礎設施的綜合能力以及公有雲部署的 優勢,其關系型資料庫已在多個行業、多個場景廣泛落地。是以,我們預計,公司 的關系型資料庫産品ArgoDB和KunDB預計将面臨比非關系型資料庫領域更大的競 争壓力。
(四)從海外對标公司看行業商業模式和估值的變化
海外大資料行業公司的業務差異與轉型帶來了估值變化。美國的大資料市場發展時 間較長,從傳統的資料叢集公司Teradata到新興的雲資料倉庫Snowflake,技術、産 品以及商業模式在不斷演進。各公司業務的差異性帶來了其估值水準的較大差異。 雲資料庫采用的按照資源使用量的收費模式不僅給資料庫和雲廠商帶來了營收的快 速增長,也驅動了傳統的資料庫公司積極進行業務轉型,将線下提供的資料庫産品 上雲提供SaaS服務。在業務轉型過程中,各公司的估值發生了較大變化。我們選取 了不同産品類型、不同業務屬性的美國5家大資料公司,從産品類型、技術架構、商 業模式的角度探讨不同公司之間估值水準的差異。
1. Teradata:公司成立于1979年,傳統業務以集中式架構的MPP資料叢集産品為 主,提供資料分析、資料管理系統及相關解決方案。近年來,其商業模式逐漸轉 向基于公有雲的SaaS服務。2018年推出基于公有雲的Vantage資料分析軟體,随着Vantage在雲端營收的持續增長,其估值水準在2022年出現了一定提升。 2019-2022年,公司PS分别為2.1倍、1.6倍、1.3倍和2.5倍。但總體而言,其集 中式架構的資料管理産品在大資料場景的應用空間有限,可成長的市場空間有限。
2. Cloudera:公司成立于2008年,早期的産品以分布式大資料平台CDH為主,根 據節點數量以訂閱制按年/月收費。2018年,公司與Hortonworks公司合并,但 由于二者商業模式上的差異,導緻各部門業務線并未實作較好的融合。2019年, 公司推出基于公有雲的CDP産品,按照使用量收費。2021年10月,公司以53億 美元被收購後,從納斯達克退市。公司的估值不僅受業務模式的影響,還受到兼 并收購的負面影響。2019-2021年,公司PS分别為3.8倍、4.1倍、4.9倍。
3. MongoDB:公司成立于2007年,傳統業務以文檔資料庫MongoDB Enterprise Advanced為主,收費模式以按照部署的節點數目按月收費。2016年,公司推出 MongoDB Atlas公有雲資料庫産品,按照使用量進行收費。Atlas訂閱制實作的 營收由2018年的6024萬美元(占營收比重22.6%),快速增長到2021年的4.9 億美元(占營收比重56.3%),CAGR為101.7%。随着公司雲資料庫業務快速 增長,公司估值水準有較大提升。2020-2022年,公司PS分别為19.3倍、37.5 倍、39.5倍。2022年11月份,估值水準的下降與美國加息等市場宏觀因素有關。
4. Elastic:公司成立于2012年,早期主要以針對各大網站的搜尋需求,提供分布 式搜尋型資料庫,提供實時全文搜尋及分析服務。公司于2015年在AWS推出數 據搜尋服務後,陸續在微軟Azure和谷歌雲上推出公有雲服務。2019-2020年, 公司PS分别為11.1倍、14.3倍和23.1倍。2021年,公司與AWS發生軟體授權事 務相關糾紛,導緻其搜尋服務在AWS上暫停服務,影響其當年營收增長及估值 水準。2022年1月,其PS下降至14.8倍。
5. Snowflake:公司成立于2012年,在行業内較早推出基于多雲環境下的雲端數 據倉庫産品。2014年,其在AWS上推出資料存儲與分析服務;2018年、2019 年陸續在微軟Azure和谷歌雲提供資料倉庫服務Data Cloud。2022年初,公司PS 為95.6倍。與分布式資料庫公司相比,公司自誕生之初就基于公有雲按照使用量 收費,技術架構和商業模式較同行更為先進。2022年11月份,估值水準的下降 與美國加息等市場宏觀因素有關。
星環科技積極應對行業變化,技術持續疊代,産品線持續拓展,持續業務轉型。大 資料行業技術疊代快,産品品類多。星環科技在發展過程中,堅持研發由底層向應 用功能延伸,産品由基礎平台向資料庫拓展的政策。我們認為,公司在技術和産品 基礎較為穩固的情況下,業務向外拓展的動力較強,空間較大。未來随着業務轉型 的持續深化,其發展前景看好。公司業務轉型情況具體如下:
1. 産品類型正由資料平台元件向資料庫拓展:公司現階段的營收來源以大資料基 礎平台TDH中包括關系型分析引擎Inceptor、實時流計算引擎Slipstream等底層 核心元件為主。各資料庫産品雖然營收規模較小,但其增速較快。2019-2021 年,在軟體産品授權模式下,公司Hyperbase、StellarDB、ArgoDB和KunDB 等資料庫産品營收CAGR為50.3%。我們認為,公司的研發采取自底向上、由核 心到應用的政策,在底層核心元件實作較大比例自研的情況下,未來有望向各 資料庫研發投入更多資源。随着各類資料庫産品功能不斷完善、性能持續提升, 其實作的營收有望保持快速增長趨勢。
2. 技術架構由分布式向雲原生更新:公司開發的TDC産品是基于容器技術的資料 雲平台,其基于Kubenetes重構了存儲和計算排程子產品,可幫助系統減少大量 資源消耗。目前,TDC産品可以以PaaS雲服務的方式為客戶提供資料湖、資料 倉庫、搜尋引擎、實時計算、資料科學平台、交易資料庫等服務。 3. 商業模式方面已具備上公有雲的技術基礎:公司開發的TDC雲管平台可通過納 管IaaS主流平台為上層PaaS及使用者提供虛拟機、虛拟網絡和對象存儲等服務, 滿足客戶對資料平台的多租戶、彈性可擴充和使用靈活性的要求。我們認為, 公司已具備上公有雲的技術條件,未來,若其與雲計算公司在商業化落地方面 形成資源互補、達成合作共識,則其上雲的商業化程序有望快速落地。
(本文僅供參考,不代表我們的任何投資建議。如需使用相關資訊,請參閱報告原文。)
精選報告來源:【未來智庫】系統發生錯誤