專訪浪潮KaiwuDB魏可偉，談談時序資料庫的選型思路

回望過去，資料庫的發展可以用“波瀾壯闊”來形容，從隻能查詢結構化資料的傳統關系型資料庫，到OLTP與OLAP分道又融合，再到NoSQL、雲原生走上時代的風口，多少優秀的資料庫産品脫穎而出。時序資料庫，以時間戳或時間序列資料優化的方式，滿足了專有資料庫場景需求，獲得了廣大使用者的青睐。

問題是，關系型資料庫自20世紀80年代開始，就在支援時間戳資料庫類型，企業為什麼不再選用傳統的關系型資料庫處理時序資料，而是要開發專有資料庫？ITPUB本次邀請到浪潮KaiwuDB魏可偉，從關系型資料庫的存儲引擎開始說起！

▲KaiwuDB CTO 魏可偉

時序資料庫VS傳統關系型資料庫

首先，關系資料模型是一個非常偉大的發明。通過表、列、行這些簡單的概念，關系型資料庫可以完成對整個世界的抽象。經過幾十年的發展，關系資料庫的技術也非常成熟。是以時序資料也可以通過關系模型來表達，用關系型資料庫來存儲和處理。但是随着時序資料規模的不斷增長，大家發現關系型資料庫一方面在處理時序資料時能力是“過剩”的，例如多種複雜的事務機制和隔離級别都不太用得上；另一方面在面對時序資料的資料規模時暴露出在性能和靈活性上的很多問題，顯得“又貴又難用”。

魏可偉舉了個例子，一個用作記錄風力發電裝置資訊的時間序列，如果我們每秒采集一次，每天就會生成86,400條記錄。如果要采集1,000個這樣的發電裝置的資料，一天就需要處理8000萬條資料，一年是300億條資料。傳統的關系型資料庫為支援通用的關系模型而引入的索引機制、事務模型、資料組織形式都會影響資料的高速寫入、高效壓縮和時序資料通常所需要的聚合效率。而時序資料庫則會針對時序資料追加寫入操作多、更新删除操作少、寫入頻率可預測、查詢多使用時間範圍作為條件、時間越久遠的資料價值越低等特定有針對性的優化資料寫入、資料存儲和資料查詢機制，進而得到更好的時序資料處理性能和更低的時序資料存儲成本。

另外，針對物聯網、車聯網這種場景，無論是過程資料采集，還是過程控制，都有時效性要求。也就是說，時序資料庫往往需要具備實時資料處理能力甚至是預測分析的能力，進而更好的滿足業務需求。

在魏可偉看來，時序資料庫是為了滿足時序資料處理高性能與低成本而産生的，并在發展的過程中結合時序資料的特點，響應相關行業的業務需求不斷發展，在實時處理、趨勢分析等領域不斷加強。與傳統關系型資料庫相比，在性能、成本、易用性等方面都有明顯的優勢。

雲與AI加持下的時序資料庫發展

當時序資料庫走上時代的風口浪尖，對于廣大使用者來說，面對市面上百花齊放的時序資料庫，該如何正确選擇？

魏可偉認為，從傳統的網際網路到物聯網再到萬物智聯時代，企業在時序資料處理的挑戰，不外乎四點：第一，海量時序資料處理帶來的性能和成本上的挑戰，包括時間線膨脹和資料采樣頻率提高帶來的寫入分析的性能挑戰，超大資料規模帶來的高存儲成本的挑戰等等；第二，開發和運維成本。激烈的市場競争要求開發團隊以最短的時間把項目傳遞，在項目傳遞後以可以在更低的運維成本下穩定運作；第三，産品的生态。資料庫産品是客戶IT設施建設中的一環。資料庫産品的價值隻有在整個IT基礎設施構成的價值鍊中才能展現。是以，資料庫産品是否能和IT基礎設施中的其他部分協同工作也是客戶需要考慮的重要因素；第四，産品帶來的價值提升。如何從海量物聯網資料中挖掘出洞察為企業決策提供支援，甚至是指導企業決策逐漸成為時序資料庫産品的決定性因素。

放眼市場，時序資料庫可以說是百花齊放，有通用時序資料庫，例如InfluxDB和TimescaleDB，有為專有場景定制的時序資料庫，例如主要面向監控場景的Prometheus和Graphite，也有Apache Lindorm這樣的可以支援多種資料模型融合的多模時序資料庫。

可以說，現代時序資料庫尚屬一個新興領域，并沒有一個統一的行業标準和技術架構。有的時序資料庫基于傳統的關系資料庫技術，有的時序資料庫基于NoSQL資料庫，也有的直接在存儲層上建構了全新的計算模型，這些技術路線都有其适用的行業和特定場景。

值得一提的是，相比其他時序資料庫，KaiwuDB更具融合化特征。魏可偉表示，KaiwuDB既是一款分布式時序資料庫，也是一款多模時序資料庫。KaiwuDB擁有分布式資料庫的強一緻、高可用分布式架構、分布式水準擴充、高性能、企業級安全等特性，适用于工業物聯網、數字能源、交通車聯網、智慧産業等快速發展的重要領域。同時，KaiwuDB具備多模資料庫的特性，可以支援時序、結構化、半結構化和非結構化資料的存儲和分析。KaiwuDB的定位是成為物聯網領域的數字化轉型底座，通過對時序資料和關系資料等其它類型的資料存儲和分析，結合分布式技術實作高擴充性和高可用性，并提供原生AI能力，一站式的滿足物聯網資料管理的需求，帶來企業價值的提升。

下一代時序資料庫部署

說白了，靠譜的時序資料庫不僅需要超強的寫入查詢性能和水準擴充能力，還需要雲、邊、端協同能力。這就要求時序資料和關系資料要能夠進行深度融合，輔助企業業務決策，快速做出響應，這也是KaiwuDB提出AIoT資料庫概念的最根本原因，隻有具備了大資料分析、AI和雲邊端協同能力，才能符合下一代時序資料庫的未來發展。

KaiwuDB魏可偉強調，多模、原生AI支援以及雲邊端一體化能力，可以打破不同資料模型和管理系統之間的壁壘，進而提升資料管理的時效性和安全性，降低總體開發成本。尤其随着AIGC火爆全球，讓AI能力更具可消費性，把預測分析能力作為資料庫的原生能力，時效性資料價值才能進一步凸顯。

以數字能源解決方案為例，使用者可以借助KaiwuDB實作一體化資料平台建設。具體操作流程是，在端側通過智能傳感和邊緣計算完成資料采集和基礎治理，然後利用5G通信技術将資料上傳至雲端，利用AI及大資料算法進行資料挖掘，産生預測性結果後再反向傳送回邊緣端，實作對裝置的控制。

當然，到底要選擇什麼樣的時序資料庫，還需要從客戶自身業務出發。更具體的來說，可以從資料庫的寫入查詢性能、開發運維成本、長期規劃和産品生态來考慮。隻有權衡各方利弊，選擇能引領未來的産品或者平台，才能全面擁抱雲原生、開啟萬物智聯新時代。

｜采訪嘉賓簡介｜

魏可偉

KaiwuDB CTO

北京大學計算機碩士，近20年資料庫、大資料分析和人工智能研發經驗。曾任IBM資深技術主管(Senior Technical Staff Member)，IBM主機機器學習平台全球首席架構師，IBM中國開發中心資料與人工智能實驗室技術委員會主席，IBM中國開發中心Db2研發技術負責人等職。在國内外擁有資料庫與人工智能專利30餘項。

專訪浪潮KaiwuDB魏可偉，談談時序資料庫的選型思路

繼續閱讀

Django + Influxdb + collectd 實作系統，web頁面監控Django 項目中使用 influxdb 時序資料庫實時監控CPU，網絡等資訊2. 安裝配置 InfluxDB3. 安裝Django 依賴庫

明日直播丨Uqbar研發負責人來講講“超融合時序資料庫的方案與思考”

OpenMLDB Meetup No.7 回顧 | OpenMLDB＋AutoX：整合自動特征工程，擁抱高效機器學習

使用者投稿——詳解我了解的 TDengine 以及它所在的時序資料庫“戰場”

TDengine 如何助力鋼鐵行業處理日均億級的資料量？來看幾個真實案例鋼鐵行業能源管理系統 x TDengine鋼鐵行業節水減排項目 x TDengine

IDEA中TDengine資料庫連接配接過程描述問題描述解決問題

Auto-ARIMA實戰1.代碼2.重要參數 3.結果展示

塗鴉推出NekoDB時序資料庫，助力全球客戶實作低成本部署

資料庫改造方案 | 同花順、弘源泰平真實案例分享

InfluxDB 2.0 原理與應用實踐

為什麼說 IoT 場景資料處理首選時序資料庫 TDengine，一文看清原因

opentsDB單機版安裝opentsDB單機版安裝

CNTK API文檔翻譯(8)——使用Pandas和金融資料進行時序資料基本分析

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

用新伺服器從零開始部署 DolphinDB

【技術課堂】打破“雲就緒”，真正的雲原生時序資料庫實作邏輯揭秘