天天看點

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

作者:數字化企業

随着物聯網、車聯網和工業網際網路等的迅速發展,時序資料被廣泛應用在各行各業,包括工業制造、經濟金融、環境監測、醫學、農業生産、硬體和軟體系統監控等領域都在大量使用時序資料揭示研究對象的趨勢性、規律性、異常性。同時,在人工智能的浪潮下,時序資料作為大資料、機器學習、實時預測基礎資料的作用日益凸顯。各類應用産生的時序資料量爆炸式增長,呈現出海量性、關聯性、時效性、實時性等特征,對資料庫寫入、存儲、分析性能以及實時性提出了更高的要求,如何管理海量的實時資料、從中挖掘價值,是時序資料庫需要解決的重要問題。

Transwarp TimeLyre是星環科技自主研發的企業級分布式時序資料庫,其支援分布式水準擴充,同時具有極高的壓縮率可以支援海量時序資料的存儲,提供高吞吐實時寫入、時序精确查詢、多元檢索等功能,可以有效支撐物聯網、能源制造、金融量化交易領域等多種時序資料業務場景。

近日,TimeLyre正式釋出V9.1版本,通過原生分布式架構、5-20倍無損資料壓縮能力、每秒千萬級資料吞吐能力、優異的查詢分析性能、豐富的生态支援、靈活的部署方式,為海量時序資料的高效存儲、快速查詢、便捷計算提供了有力支撐,大幅降低了企業硬體成本,保障了時序資料查詢分析的實效性,滿足了時序資料在各類複雜業務場景的應用需求。同時新版本還提供一站式國産化替代解決方案,可以實作InfluxDB的平滑替換,助力企業打造自主可控資料平台。

原生分布式架構,叢集靈活擴充,輕松實作海量時序資料存儲分析

TimeLyre采用原生分布式架構,支援叢集線上擴縮容,可滿足海量時序資料存儲和分析需求。TimeLyre的存儲元件TimeLyreStorage主要由分布式資料管理系統與時序存儲引擎構成。

* 分布式資料管理系統負責分布式元資訊的一緻性存儲與分布式叢集管理,基于Raft協定保證資料一緻性與高可用性。

* 時序存儲引擎使用類似LSM-Tree的技術,提供高吞吐的實時插入、高性能的時序資料檢索,同時會對時序資料進行多種編碼和壓縮,保持整體資料的高壓縮率。

在計算方面,TimeLyre采用星環科技分布式向量化計算引擎Crux實作快速讀取批量存儲檔案、高速響應資料查詢等功能。同時基于用于資料倉庫和互動式分析的分布式編譯器Quark,提供完整的SQL編譯支援,相容通用開發架構和工具,使得TimeLyre可以輕松融入企業資料倉庫或資料湖體系,為企業提供高成本效益和高度可擴充的解決方案。此外,Quark支援分布式計算可以同時在多個時序存儲間平衡業務流量,能夠有效地為用戶端屏蔽掉叢集細節,并且解決了時序存儲逾時或當機後無法執行任務的問題。

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

高吞吐、高并發,實作單節點每秒千萬級資料寫入的極緻性能

TimeLyre支援實時、批量等多種資料寫入方式。實時寫入具備高吞吐、高并發,每秒千萬級資料點插入的性能,可以保證資料檢索的實效性,是企業搭建實時數倉的極佳選擇。此外,TimeLyre支援通過SQL、檔案載入、API以及多種工業物聯網通信協定實作資料入庫,滿足各種複雜業務場景的多樣化需求。

高水準無損資料壓縮,實作超高資料壓縮率,大幅降低硬體成本

TimeLyre采用行業領先的高水準資料壓縮優化技術,在常見的時序資料上可實作5-20倍的壓縮率,提高了資源的使用率,大幅降低使用者硬體成本。TimeLyre提供多場景資料靈活、高效的壓縮解決方案,不僅支援snapyy、gzip、lzo、zstd等常用壓縮算法,還支援通過Delta編碼将資料作為連續樣本之間的差異來存儲,同時也支援行業特征編碼,根據檢測值資料類型、分布範圍,資料集中度進行特定的編碼,通過内置多種資料壓縮方式進一步提升時序資料壓縮效果。

資料處理性能增強,提供時序資料存儲分析極速體驗

時序資料存儲方面,TimeLyre内置多種索引結構,檢索性能達到毫秒級的低延遲響應。資料分析方面,TimeLyre支援通過标準SQL進行資料分析,降低使用者使用門檻。并且支援主流的SQL子產品化擴充,相容通用開發架構和工具,支援事務特性,保證資料的準确性。通過使用分布式向量化計算引擎,TimeLyre支援海量時序資料的計算與分析,覆寫關聯查詢、聚合查詢、嵌套查詢等多種複雜SQL分析功能,提供複雜場景構築能力。基于星環科技多模型統一技術架構,TimeLyre時序資料可以與星環不同模型的資料統一存儲管理和聯合分析,打破資料存儲管理屏障,實作多模型資料的統一融合。

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

國産軟硬體異構平台靈活部署,提供全面的安全和運維保障

TimeLyre采用星環科技自主研發的存算分離架構,基于容器技術,支援業内主流的作業系統和晶片,滿足各類信創軟硬體環境需求。并且可支援X86架構和各種國産晶片架構的混合架構,能夠運作在異構CPU架構以及多種作業系統混合部署的叢集環境中,最大化利用硬體資源,讓使用者逐漸實作國産化平滑替代。

TimeLyre内置配套的安全授權、使用者權限控制等相關安全功能,可以有效保障系統資料和通路上的安全。

* 在使用者權限認證上,基于SASL提供plain與gssapi兩種認證方式,同時提供使用者組概念,便于通過平台實作統一管理與操作;

* 在資料權限上,基于角色的通路控制(RBAC) 機制,使使用者能夠通過将權限配置設定給角色并将角色配置設定給使用者或組來授權使用者,支援庫級/表級以及列級/行級通路權限控制,同時支援20多種脫敏算法,具備優秀的資料隐私保護能力;

* 資料加密上,支援基于SSL/TLS兩類協定進行資料加密,確定資料傳輸過程的安全。

一站式國産化替代解決方案,助力企業打造自主可控資料平台

為符合國家信創戰略要求,助力企業實作軟體自主可控,TimeLyre提供了InfluxDB一站式國産化替代解決方案。TimeLyre對InfluxDB有良好的相容性,可以實作在不修改業務代碼的情況下,将運作在InfluxDB中的業務和資料平滑地遷移至TimeLyre,并且在遷移過程中可以保證監控系統線上持續運作,充分保障遷移過程安全穩定進行。

替換InfluxDB涉及接口相容度、高可用性、中間件與應用層軟體相容性等多個問題,TimeLyre采用兩段式的替代方案,保障原系統和服務的低成本、安全、平滑遷移。

* 第一階段:替換InfluxDB的資料庫服務,完成InfluxQL到TimeLyre标準SQL的改造工作,實作原有業務邏輯腳本的平滑替換;

* 第二階段:替換InfluxDB配套的grafana等運維監控元件,借助星環科技多模資料平台監控軟體Aquila Insight、大資料安全管理軟體Guardian等元件,完成對既有業務系統的完全國産化替換。

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

打造實時高性能時序資料平台,賦能能源制造行業資料湖建設

能源制造業數字化轉型是數字經濟的重要環節。某能源頭部企業現有大量的智能化工業裝置,裝置檢測具有測點多、頻率高、資料安全要求高等特點。

傳統關系型資料庫資料入庫慢、存儲資源消耗大、查詢計算效率低,而開源時序資料庫可運維性、可擴充性較差,無法支撐複雜分析業務,同時也面臨資料安全問題,均無法支撐智能工業裝置實時産生的大量時序資料。

該企業基于星環科技TimeLyre的實時資料存儲、分析能力,打造了高性能時序資料平台。通過星環科技實時流計算引擎Slipstream實時的将散布在數萬傳感器中的時序資料抽取到TimeLyre中,以此為基礎進一步開展行業算子計算、實時作業管理等實時分析,以及時序資料檢索、時序資料開發等。同時利用星環科技分布式分析型資料庫ArgoDB進行湖倉集一體化建設,實作了大資料靈活分析、離線作業管理等功能,進一步增強了企業業務資料離線分析能力。

項目建成後極大提升了時序資料存儲性能,實作了每秒千萬級流資料插入,入庫性能提升十倍以上;實作了高性能查詢,時序資料快速查詢能夠毫秒級傳回結果,查詢性能提升十倍以上;大幅提升資料壓縮效率,資料平均壓縮率達到10倍,有效節約企業硬體成本;聯合分布式分析型資料庫ArgoDB滿足了之前未能實作的實時數倉與離線數倉聯合查詢的業務需求。

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

攜手頭部券商,打造量化投研一體化平台,提升投研效率

金融行業資料往往具有資料架構大、資料頻率高、實時性強等特征。某頭部券商客戶使用Python進行資料處理分析,受技術所限隻能進行單機程式部署,不僅需要購買昂貴的高配置單機伺服器滿足性能和存儲需求,還需要業務人員具有較高的技術水準完成複雜查詢分析的編寫,此外該技術架構也無法完成多年高頻資料的分析,導緻喪失部分交易機會,整體收益率顯著下降。

針對該券商客戶遇到的高頻交易資料入庫存儲困難、因子資料分析函數複雜、業務人員技術水準要求高、硬體購置成本高等痛點,星環科技基于TimeLyre打造了量化投研一體化平台TransQuant。

通過TimeLyre Tools和Workflow實作多源資料接入,包括存儲在Oracle/MySQL中的資料、以HDF5和PKL格式存儲的使用者因子資料以及第三方資料等,将這些資料統一存儲在TimeLyre時序資料庫中,并通過星環科技智能量化投研平台TransQuant對這些資料進行量化回測和因子研究,實作海量資料的複雜分析。

該平台提供豐富的資料接口,通過Python API與原系統通信,支援多資料源多資料格式遷移導入,實作使用者業務的平滑遷移擴充,支撐多種金融應用場景。同時,TimeLyre作為分布式時序資料庫大大提升了系統運算能力,提供億級資料的高速運算,相同場景下達到Pandas單機性能的百倍以上。此外,特别支援了客戶應用過程中使用的上千列因子資料表,并提供了節點橫向擴充能力。最終通過運用圍繞TimeLyre的系列産品實作了對金融行業海量時序資料入庫、存儲、複雜分析的全面支援。

分布式時序資料庫TimeLyre9.1釋出:海量存儲、高效壓縮、實時分析

繼續閱讀