天天看點

墨天輪釋出中國資料庫行業報告,新一代工業實時資料庫駛入快車道

作者:庚頓資料

2023年立春之際,知名資料庫社群墨天輪釋出《2022中國資料庫行業年度分析報告》,其中《實時資料庫》部分詳細介紹了2022年度實時資料庫行業的發展背景、關鍵技術、應用特點和市場趨勢。作為世界及中國唯一的工業級資料庫,獨具工業氣質的實時資料庫正在駛入技術創新與市場發展的快車道。)。

墨天輪釋出中國資料庫行業報告,新一代工業實時資料庫駛入快車道

衆所周知,随着網際網路 、大資料 、人工智能等新一代資訊技術的創新聚變,數字化産業正在成為全球經濟 新的驅動引擎,以資料為核心生産要素的增長變革,成為面向網絡化 、智能化方向提質增效及重塑 核心競争力的基礎 。随着數字化轉型深入推進和資料量的爆炸式增長,産業對資料庫的需求發生了 革命性變化。

技術發展讓資料創造無處不在,從企業應用到個人應用和萬物互聯,來自新時代的資料庫挑戰 持續增長:資料存儲從 TB 級别 、PB 級别增至 EB 級别;海量并發從企業内部數百至數千并發到 網際網路模式下百萬級至億萬級并發;新的應用場景要求資料庫具備彈性伸縮能力;各行業在加速信 息化基礎設施的分布式建設;此外端邊雲協同 、AI 融合 、軟硬結合 、資料安全 、隐私保護等都是 重要挑戰 。目前資料庫技術得到創新發展并發生着颠覆性變革,從結構化資料到非結構化資料,從 關系型到非關系型,從集中式到分布式,從閉源到開源,“One size fits all”的時代已經過去 。

全球知名咨詢公司 Gartner 2021 年企業軟體全球市場報告顯示,資料技術已成為企業軟體中 最大且增速最快的賽道,未來 5 年複合增長率将達到 17.5%;2022 年 5 月釋出的市場報告顯示, 2021 年全球 DBMS ( Database Management System,資料庫管理系統) 市場規模達到 800 億美元, 同比增長 22.3%。在快速發展中,資料庫領域的技術和市場也發生着巨大變革 。

中國的資料庫市場是全球市場的重要組成部分,從技術到商業,中國資料庫産業正在發生快速而深遠的變化,為了記錄時代變革 、洞察技術趨勢 、傳遞産品價值,我們組織編寫了本報告,希望 能夠為資料庫産業的産學研用提供參考 ,為行業發展作出貢獻 。

附:中國資料庫行業年度分析報告2022-實時資料庫

墨天輪釋出中國資料庫行業報告,新一代工業實時資料庫駛入快車道

和通用資料庫不同之處在于 ,實時資料庫技術不止是資料庫 ,而是工業技術 、實時技術 、數 據庫技術以及先進的 IT 技術深度融合的産物,是一套包括資料采集 、資料存儲 、資料計算和資料 可視化的工業資料管理系統,管理工業資料從生産到應用的全生命周期,是工業資訊系統的工業資料管理底座,是工業數字化 、資訊化和智能化的基礎核心基礎軟體。

11.1 實時資料庫是工業數字化建設的核心

實時資料是工業名詞,統一表示強實時屬性工業系統 、過程或行為随時間變化的資料。作為數 據庫系統發展的分支之一,實時資料庫主要但不限于不斷更新的快速變化的實時資料及具有時間限 制的工業事務處理 。是以,和其他通用資料庫不同之處在于,實時資料庫技術不止是資料庫,而是

工業技術 、實時技術 、資料庫技術以及先進的 IT 技術深度融合的産物,是一套包括資料采集 、數 據存儲 、資料計算和資料可視化的工業資料管理系統 ,管理工業資料從産生到應用的全生命周期, 是工業企業資訊系統的工業資料管理底座,是工業數字化 、資訊化和智能化的基礎核心軟體 。

實時資料庫專門解決工業實時資料采集 、存儲和應用問題,融合各種先進技術和優化架構設計, 通過提高效率來處理大規模實時資料的同時帶來系統性能的提升,包括更精準的資料采集 、更高的 容納率 、更快的大規模查詢 、更好的資料壓縮以及更有效率的資料應用支撐 。

新一代實時資料庫管理系統創新融合了工業資料采集技術 、中斷觸發技術 、自動化控制技術 、 記憶體庫技術 、關系庫技術 、行列存儲技術 、多核并行技術 、安全通信技術 、高效實時檢索技術等等, 在國外壟斷的核心技術領域突破了卡脖子重圍,實作了完全的自主創新,通過使用者共創,完成了大 量實踐和長期檢驗,在提高工業資料管理能力的同時,為企業數字化 、資訊化和智能化做出了重大 貢獻。

11.2 實時資料庫發展曆程

實時資料庫最早期的研究始于上世紀 80 年代的英國,四十餘年發展過程中,經曆了早期實時資料庫 、标準實時資料庫 、新一代實時資料庫三大階段 。

早期實時資料庫階段 ( 1980-2000) 的實時資料庫代表産品為西門子 、ABB 等工業自動化廠商,該類産品當時較好地解決了生産線實時資料采集 、就地存儲的問題,但在廠級異構資料采集 、 資料彙總集中和海量資料容納 、大規模複雜查詢及靈活資料應用支撐方面存在明顯不足。

标準實時資料庫階段 ( 2000-2020) 以 OSI 、Instep 、庚頓資料 、麥傑等為代表,該階段技 術脈絡逐漸清晰 、解決方案架構趨于穩定 、應用領域極大豐富,進一步拓寬了資料采集範圍,同時 極大提升了資料容納能力和支援複雜業務的查詢計算能力,成為以流程工業為代表的生産監控領域标準配置 。

中國實時資料庫起步較晚,但 21 世紀初由于國家層面将實時資料庫作為與作業系統同一級别 的軟體鼓勵支援,同時趕上了 20 餘年來中國流程工業聲勢浩大的資訊化浪潮的推動,中國實時數 據庫産業得以快速高品質發展,以庚頓資料為代表的實時資料庫廠商開啟了新一代實時資料庫階段 ( 2020 至今) ,該階段由于資料規模爆炸增長 、資料采集難度提高,工業企業深水區的資料應用 進入全面數字化和智能化階段,大型工業集團化應用日益增多,工業企業生産連續性 、工業安全以 及智能化應用需求不斷提升 ,實時資料庫技術路線呈現多樣化和融合化發展 。

随着全球市場格局劇烈變革,工業數字化轉型不斷進入核心業務深水區,大陸工業企業進入通 過新型工業技術和數字化技術實作高品質和低碳化發展目标的發展新階段 ,5G 、雲計算等新興技 術快速發展,傳統實時資料庫的應用系統紛紛優化更新,大陸實時資料庫産業正在迎來重大發展機 遇 。

11.3 實時資料庫關鍵技術研究現狀及問題

實時資料庫管理系統作為涵蓋工業資料采集 、資料管理及資料應用的軟體系統,其整體架構與 技術路線不斷深化發展,在端雲采集同在 、集控式與分布式并存 、邊緣計算與雲平台共處等應用趨 勢驅動下,國内外在海量資料存儲機制 、實時事務管理政策 、分布式并行處理技術等關鍵技術領域 的研究一直火熱,其理論更為成熟,實踐場景更為豐富,以流程工業為代表的核心應用領域成果尤 為突出 。

( 1 ) 海量資料的存儲機制

實時資料庫包括記憶體資料庫和曆史資料庫,記憶體索引機制和外存索引機制必須深度融合才能真 正提升讀寫性能,滿足不斷更新的應用需求。ARTs_EDB 系統提出兼有 AVL 樹和 B+樹優點的 SB 樹作為其記憶體索引機制,并利用基于時間點的方法實作了一種新的時态索引技術 。GDREAL 實時 曆史資料庫針對性能瓶頸,提出新的儲存機制——Z 樹,有效提升了磁盤存儲性能。由于高效的查 詢算法對于記憶體實時資料庫的性能至關重要,專口面向工業控制領域資料和業務的哈希索引算法及 接口設計具有更強的适應性和更高的效率 。此外,考慮到實時資料庫基于測點的存儲結構特征,綜 合 B+樹與哈希索引與一緻性哈希索引的方法能夠有效提升資料查詢效率。

實時資料庫在組織存儲檔案格式時,極其重視資料壓縮算法的研究,以應對實時資料庫在生産 環境面臨海量資料存儲的挑戰 。在實時資料庫領域中,資料壓縮技術主要有兩類,無損壓縮和有損 壓縮 。無損壓縮以通用壓縮理論為基礎 ,采取哈佛曼算法等經典的壓縮算法 ,如 InStep 公司的 eDNA 實時資料庫;而有損壓縮則更多地考慮了工業實時資料的特征,采取特殊舍點的算法,著 名的有損壓縮算法是 OSI 公司的 PI 實時資料庫使用的旋轉門壓縮算法;麥傑資料庫在時間次元上

有更全面考慮,綜合定制采樣頻率 、例外報告 、和矢量線性壓縮三種措施;庚頓資料将資料壓縮劃 分為存儲前的定制采樣頻率 、例外報告,和存儲後死區壓縮算法 、可行域有損壓縮算法 (自研) 、 兩階段無損壓縮算法,綜合壓縮比超 1000:1。

此外,低成本的存儲是實時資料庫需要解決的一個主要問題,對資料進行分級存儲,從使用不 同存儲媒體,以及減少資料的副本數等方面,解決如何在保證資料查詢性能的前提下,降低資料的 存儲成本 。對于實時資料庫來說 ,多級存儲表示:CPU 寄存器->記憶體->SSD 固态硬碟->HDD 機 械硬碟->錄音帶/CD光牒存儲 ,實時資料庫把各種不同存儲容量 、存取速度和價格的存儲器按照層次結 構組成多層存儲器,并通過管理有機的組合成為一個整體,使所存放的資料按照時間層次分布在各 種存儲器中,同時随着資料不斷增長将資料從高速存儲向低速存儲持續遷移,在每一級存儲可以挂 載多存儲路徑,實作存儲空間的線上擴容 。近年來非易失性記憶體等資訊存儲硬體開始普及,基于這 類新型硬體的實時資料庫的内部處理邏輯 、算法等需要重新設計,實時資料庫技術可借此進一步發 展和完善 。

( 2 ) 實時事務的管理政策

事務是指必須原子地執行的一個或多個資料庫操作的集合,集合中的所有操作或者都執行,或 者都不執行 。實時資料庫的事務則兼具傳統資料庫事務與實時任務兩者的特征,必須同時實作資料 一緻性和定時限制 。是以,實時事務的管理政策與傳統事務存在顯著差異,通常包括事務排程和并 發控制兩項内容 。

事務排程的目标是滿足定時限制事務的比率最大化,即讓盡可能多的事務處理在截止期之前完 成 。目前國内外的實時資料庫中最為常用的是基于優先級的事務排程政策,包括基于事務截止期來 指派優先級的截止期最早最優先政策 、基于空餘時間 (事務可推遲執行的時間估算) 來指派優先級 的空餘時間最短最優先政策 、通過價值函數來指派優先級的價值最高最優先政策 、通過價值密度函 數 (事務期望化值與所需執行時間的比值) 來指派優先級的價值密度最大最優先政策 、基于事務執 行曆史日志的排程政策和廣義截止時間最優政策等 。上述事務實時排程政策有着各自的化勢應用場 景,但是能夠結合國防軍事領域特點的事務排程政策研究則相對不足 。

并發控制的目标是通過規範多個并發事務的執行順序來避免它們之間的互相幹擾,防止資料庫 狀态一緻性的破壞 。實作并發控制的傳統技術包括鎖協定 、時間戳和有效性确認其中兩階段鎖是最 經典的鎖協定之一,但是在基于優先級的事務排程過程中會産生“優先級倒置”等問題 。為解決上 述問題,高優先級兩階段鎖對傳統的兩階段鎖協定進行了改進,在發生“優先級倒置”時能夠中止 低優先級事務而確定高優先級事務及時獲得相應資源 。分布式環境下的并發控制 (分布式鎖) 目前 尚沒有特别高效的方案 , 國外分布式系統已經廣泛應用的算法和實作包括 Paxios 、Raft 、 Zookeeper 等。

( 3 ) 分布式并行處理技術

在目前最流行的分布式架構 Hadoop 中 ,不同的排程算法對于其性能有極大的影響 。目前常 用的作業排程算法主要包括先進先出排程算法 、公平份額排程算法和計算能力排程算法,其中應用 得最廣泛的是先進先出排程算法 。支撐 Hadoop 架構的兩個核心技術是源自 Google File System 的 HDFS 和 MapReduce 。MapReduce 模型适用于批量處理任務,但計算實時性不高 。對于實 時計算任務,流式計算架構擁有更為針對性的設計,典型地包括 Twitter 公司開源的 Storm 架構 、 Linkedi 公司開發的 Samza 架構和 UC BERKELEY 大學研究的 Spark 流式架構 。用于分布式環 境下實時性要求嚴格而計算精确度要求稍低的應用場景 。

然而,工業領域有着豐富的資料查詢與處理場景,例如流程圖監控頁面的實時資料展示,面向 報警管理與優化的資料挖掘分析等,需要系統能夠同時提供分布式查詢 、實時訂閱 、實時與非實時 并行計算等多種能力 。如果簡單地将上述并行處理技術進行內建和拼裝,而缺乏對流程工業資料處 理場景的深入分析,将導緻系統複雜而低效,無法滿足應用的實時性和可靠性要求。是以,該方向 尚存在大量研究工作有待開展 。

分布式實時資料庫的服務橫型包含分布式存儲服務 、分布式計算服務和網絡通信服務三大分布 式服務群 。同時,基于工業網際網路的跨地域資料傳輸與服務接口通路使得分布式實時資料庫的開放 性日益提升,資訊安全問題也逐漸成為分布式實時資料庫系統設計過程中必須重點考慮和投入的方 向,對應的網絡資訊安全和使用者通路認證技術成為隔離系統外部和内部的重要安全屏障 。除此之外, 組态管理服務用于對系統組态配置資訊和工廠模型資訊迸行統一管理和釋出 。事務管理服務參與全 生命周期流程,将全局任務與分布式服務節點進行緊密連接配接,確定任何涉及多服務節點的任務能夠 完整 、有序 、正确地執行,并在排程過程中盡可能滿足其實時特性。

進入二十一世紀,随着國家鼓勵發展實時資料庫等基礎軟體的鼓勵以及數字化轉型 、雙碳目标 等國策的出台,國内實時資料庫系統研究和應用不斷深入,國産實時資料庫軟體取得長足進展,其 功能和性能在電力 、化工 、冶金 、煙草 、軍工 、新能源等衆多行業的重大項目中不斷得到驗證,逐 步實作了對國外軟體的趕超 。

雖然實時資料庫管理系統屬于核心基礎軟體,但目前大部分國産實時資料庫軟體針對自主可控 CPU 和作業系統進行優化不足,軟體在一些功能的技術實作上使用通用但更依賴 CPU 計算能力 的方法 ,CPU 、IO 裝置等硬體能力不足 。是以,如果想要真正滿足大工業市場海量傳感器資料實 時存儲和處理的需求,尤其核電應用等态勢感覺 、裝備運作狀态監控等進階資料應用領域的特殊需 求,目前大部分國産資料庫管理系統還需要更進一步 。針對以上問題,以庚頓資料為代表的實時數 據庫廠商例近年來不斷突破創新,海量順序和亂序資料的高性能寫入 、海量實時和曆史資料的原始 及聚合查詢 、廣泛适配國産硬體裝置和作業系統以及如何實作實時資料庫更高可靠性和安全性等領域均進行了大量深入的研究與創新應用,取得了豐碩的成果和市場回報 。

11.4 中國實時資料庫市場發展趨勢

對大型工業企業而言,精準 、快速掌握數字化轉型程序中産生的各種資料和資訊,可以進一步保障生産穩定 、業務優化 、裝置健康和能耗降低 ,而這些正是企業獲得高品質發展的關鍵驅動力 。 充分發掘工業資料價值的企業,才能最大限度釋放工業資料生産力,幫助工業使用者在激烈的市場競争中搶占主動 、獲得先機。

随着 5G 技術 、高性能電池技術的發展和低成本傳感器的普及,工業資料呈現爆炸式增長,流 程工業的工業資料資源日益豐富,但企業對資料的掌握和應用沒有跟上資料增長的速度,大部分工 業資料并沒有得到有效的共享和利用,資料收集和整理的時間占比過大,真正被發掘并運用到企業 的日常營運中的資料不到三分之一 。是以,流程工業迫切需要海量工業資料的整體解決方案,更加 高效地 、精準地 、實時地采集需要的工業資料,同時對這些資料進行整合分析并及時共享給各業務 部分的資料使用方,以期創造更新的增長極。資料已然成為現代流程工業數字化轉型的核心,真正 實作工業資料的采集 、存儲并幫助建立工業資料分析和應用平台挖掘工業資料價值,成為驅動實時 資料庫行業面臨的挑戰和機遇 。

實時資料庫開發的理念是為了實作工業監控及工業資料分析應用,其資料讀取以及存儲壓縮能力作為核心功能一直在更新疊代 。為滿足工業企業更高标準要求,突破原有應用場景限制,開辟新的增量市場,實時資料庫廠商需要在技術層面上需要實作更多種資訊技術的深度融合,尤其要和邊 緣計算結合互補;為了降低企業應用難度,提升使用感受,需要高度統一協定接口,進一步提高系 統一體化水準。

( 1 ) 融合與統一 ,實時資料庫技術創新不能停

與各類資訊技術的高度耦合,邊緣計算将算力下沉 。實時資料庫目前采集頻率已經突破毫秒級, 超越了多數裝置資料采集需求的上限 。雖然性能已經達到單體裝置采集标準,但是裝置數量未來幾 年将快速增長,與物聯網 、雲計算 、邊緣計算等不同技術橫向融合是提升自身價值的重要途經,其 中以邊緣計算與實時資料庫的相關性最強 。當資料過于龐大,集中化的處理方式很難響應實時的數 據分析需求時,需要通過邊緣裝置實時響應的處理并回報,采取這種分級處理的方式能夠有效提升 時效性資料的價值,同時減輕存儲系統的負擔。尤其在離散制造業當中,行業碎片化程度高且呈橫 向分布 ,應用邊緣計算技術可以更契合離散制造系統實時工業軟體開發 。

墨天輪釋出中國資料庫行業報告,新一代工業實時資料庫駛入快車道

新一代實時資料庫正在全力支撐和加速流程工業數字化轉型升及

系統一體化程度提升,軟體協定接口統一化 。硬體上,裝置由企業采購,但是不同品牌的智能 制造裝置資料測點回報的資料真實性 、時效性會略有不同;軟體上,目前不同實時資料庫産品适用 的開發平台或多或少存在限制,接口标準衆多難以高度統一,激化裝置和軟體資料對接問題 。對實 時系統的一體化成為企業 、裝置提供商 、實時資料庫提供商的統一需求 。

( 2 ) 更強大 ,更成熟 ,實時資料庫産品更新迫在眉睫

功能更新,應用場景增加 。實時資料庫目前主要還是應用于傳統大型工業例如火電廠 、核電廠 、 煉鋼廠等,這些行業實時資料的并發量和處理量已經處于金字塔頂端,印證了實時資料庫核心功能 已經具備“向下”相容的能力,例如汽車 、家具 、食品等行業。可結合雲平台技術,突破現場控制 監控的瓶頸,賦能于更多的場景當中 。最大程度實作工廠自動化生産,實作無人化“黑燈工廠” 減 少企業人力成本,提高生産效率。

更完整成熟的實時資料庫産品。相較于通用的時序資料庫,完整的實時資料庫産品更适用于工 業制造領域 。制造業企業與網際網路公司相比,缺少專業研發優化人員,更多是使用者的身份,對産 品的首要需求是高穩定 、可維護 。工業智能生産采用的架構比較類似,擁有相對成熟的體系,标準 化 、成熟度高的實時資料庫産品更契合工業需求。成熟的實時資料庫産品需要提供标準的資料挖掘 模式,對于基本的過程參數 、不同工序之間一些标準的産品無需企業進行進一步開發應用 。

( 3 ) 市場規模急速膨脹 ,資本進入最佳時機

中國工業實時資料庫市場經曆了二十多年的發展,至今一直處于穩步增長狀态,但是增速較為 緩慢,應用動機基本出于行業領頭企業“嘗鮮”使用 、制造标杆工廠的想法,未能得到深度開發應 用,但是在工業數字化從口号進階至國家重要發展方向後,給市場注入一陣強心劑 。工業場景中, 80%以上的監測資料都是實時資料 ,過去企業沒有重視儲存曆史資料 ,如今對資料價值挖掘及應 用的需求和實際使用的情況之間存在巨大缺口 ,市場有很大上升空間 ,預計至 2025 年達到 269 億元的規模 。以資料為核心競争力的意識将在制造業中蔓延滲透至大大小小各個細分行業,未來大 量應用實時資料庫成為必然趨勢。

( 4 ) 産品國産化替代大勢所趨

随着大資料時代的來臨,資料成為企業的重要戰略資源,資料的隐私性和安全性是企業在選擇 實時資料庫時的重要考量因素 。特别是工業資料,具有其他行業不具備的特征 。與網際網路大資料不 同,工業資料雖然規模龐大,但是大多為有效資料,資料價值密度高,對企業而言具有絕對的商業 價值 。工業資料主要來源于各類傳感器裝置對環境和生産流程的監測,多種類資料并發量巨大,數 據類型異常龐雜 。工業制造是國家發展的重要依靠,特别是在高精尖領域,對資料洩露采取零容忍 态度,資料機密性強 。

中國實時資料庫研發起步較晚,初期階段更多借鑒國外的優秀技術和經驗,導緻海外品牌在中 國市場中占據了先機 。近幾年在産品性能方面,本土産品奮起直追,甚至實作彎道超車,卻在營銷 層面存在薄弱環節,暫未打破壟斷局面,但海外産品靈活性不足及資料隐私兩個主要驅動因素暗示 着國産化替代浪潮的到來 。在保證資料安全的前提下使用性能優秀 、維護便捷 、成本更低 、接口協 議更開放的産品是每一個理性的中國企業都會做的選擇,本土化産品的迅速崛起讓中國企業看到了 新方向 。

( 5 ) 頭部效應驅動實時資料庫再上層樓

工業實時資料庫不同于時序資料庫等通用資料庫,在生産線的運作時間可長達數十年,且價格 高昂,是企業實時系統的核心構成 。在初期選擇階段企業會進行再三考量,安裝使用後不會輕易更 換 。替換周期長 、成本高或造成未來市場産生頭部效應。對實時資料庫有迫切需求的更多是中大型 工業企業,産品應用一步到位和可持續運作是首要考量因素 。實時資料庫未來的市場将屬于擁有絕 對産品競争力的優秀企業。

但目前市面産品品質層次不齊,市場中得到認可的産品來自十幾家不同的實時資料庫企業,由 于缺乏統一的對比标準和長時間的調教優化,部分國産産品在基本功能上仍存在缺陷。例如在資料 點采集存儲方面,不少廠商在資料采集過程中存在資料不穩定 、資料斷包的現象;伺服器相容性 、可靠性和穩定性不足,導緻經常性停運維修;資料檢索能力弱,進行曆史資料定位提取時發生目标屬性類型不比對的情況 。

實時資料庫是典型的長期主義市場,爬坡周期長,産品成熟慢,使用者共創程度高,成熟穩定性要求高,需要不斷優化調節和歲月的沉澱。研發具有自主知識産權的實時資料庫系統具有重要的意 義,實時資料庫系統的設計與結構的開發尤為重要,開發流程繁瑣,需要時間的沉澱來對産品進行 反複的優化調試 。前期設計開發包含概念結構設計 、邏輯結構設計 、實體設計,對接入層 、存儲層 、 計算層 、平台層以及應用層多層面的開發 。後期運維調試階段,則需要根據行業特定需求進行實時 資料庫優化調整,産品的成熟度與工程支援人員的專業度及工業知識沉澱程度決定維護調試周期的 長短。

官網:https://www.modb.pro/aboutus

繼續閱讀