天天看點

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

作者:星環科技

星環科技TDH一直緻力于給使用者帶來高性能、高可靠的一站式大資料基礎平台,滿足對海量資料的存儲和複雜業務的處理需求,同時在易用性方面持續深耕,降低使用者開發和運維成本,讓資料處理平民化,助力使用者以更便捷、高效的方式去挖掘資料價值。

基于這樣的宗旨,星環科技TDH正式釋出了9.3版本,推出了新一代湖倉集存儲格式Holodesk,一份資料滿足資料湖的離線實時接入、數倉的複雜加工以及資料集市的分析需求,避免資料備援,減少資料流轉,提升業務綜合性能與時效性。同時,分布式計算引擎實作了向量化更新,綜合性能大幅度提升。此外,TDH 9.3對多模型統一技術架構進行了疊代更新,全新釋出分布式向量資料庫Transwarp Hippo,共支援11種模型資料統一存儲管理,用統一查詢處理語言完成跨模型資料流轉與關聯分析,讓業務開發更加便捷。

新一代湖倉集一體架構, 打破湖倉集邊界

傳統湖倉集混合架構,需要部署多個平台進⾏資料存儲,造成資料備援和存儲資源浪費。其次,資料需要跨平台ETL流轉,流轉開銷高,時效性較差。資料跨平台流轉中還容易導緻不⼀緻,影響業務正确性。此外,多平台的開發标準不一緻,存在一定的技術門檻,權限管理複雜。當需要跨層資料時,嚴重依賴其他部門的資料⼯程師、資料科學家來加⼯資料,對資料分析師來說,資料分析探索的效率大大降低。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

TDH9.3 打破資料湖、資料倉庫、資料集市的邊界,基于湖倉集一體平台,所有人都可以通路實時的資料、曆史的資料、原始的資料、加工過的資料,如業務分析師可以直接通路最原始的資料,資料工程師可以更高效地模組化,資料科學家可以橫跨不同的資料源進行資料分析和挖掘。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

基于TDH9.3湖倉集一體架構,各種類型的資料通過資料內建工具,通過離線或者實時的方式加載到TDH中,結構化資料統⼀由Holodesk來承載湖倉集的存儲。通過統⼀SQL引擎和統⼀計算引擎,實作湖倉集資料的統⼀處理、查詢、加工,支撐多種應⽤場景。配合統⼀的運維、審計、權限、告警等功能實作平台的統⼀管理,避免重複建設。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

一種存儲格式,滿足湖倉集關系型資料存儲需求

TDH 9.3将之前的⾼性能存儲格式Holodesk進行了重構,隻需一個存儲格式即可同時滿足湖倉集的資料接入、數倉加工和高性能資料分析。在全新的存儲引擎下,可以将湖倉集的所有資料都放在統一的存儲格式裡,不需要針對不同的建設去使用不同的存儲引擎,能夠同時⽀持離線批量資料和實時資料的接入,同時也支援高性能的模型加工、批處理、線上分析等計算需求。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

相比ORC,更多功能、更高性能相比于之前版本的ORC事務表,TDH9.3的Holodesk具有更多的功能和更高的性能。

  • 無需手工分桶:ORC事務表需要手動分桶,對開發和運維人員是非常大的挑戰。TDH9.3 Holodesk不需要手動分桶,存儲引擎自動做資料切片和分布式,使用者無需關注分桶數,大幅簡化了建表流程和成本。
  • 非分桶檔案自動合并:Holodesk具有更靈活,更多政策的檔案管理系統,自動将任意的非分桶檔案按照合适的大小進行合并,避免桶檔案過大或過小的情況,減少運維上的投入。
  • 高頻實時資料寫入:實時場景下,Holodesk支援實時流計算引擎Slipstream的實時資料寫入和Batch Insert批量寫入,滿足資料湖的實時資料接入需求。
  • 性能數倍提升:Holodesk的IO性能是ORC事務表的10倍以上,在TPC-DS 1TB資料集測試中,相⽐于ORC事務表,TDH 9.3 Holodesk的性能提升了3倍。

相比開源湖倉,創新技術降本增效相比于開源湖倉技術,如Hudi / Iceberg等,TDH湖倉集一體在多項技術方面實作了提升和創新,幫助使用者降低開發運維成本,提高開發分析效率,提升資料處理分析性能。

  • 四種事務隔離級别:開源湖倉技術一般是基于快照的事務隔離,而TDH支援完整四種事務隔離級别,特别是在複雜的高并發比數倉業務場景下,使用者可以根據業務需求調整事務隔離級别,滿足不同僚務處理的要求。
  • 小檔案靈活、自動合并:開源湖倉技術小檔案需要手工合并管理,需要通過代碼來調⽤,維護成本較⾼。TDH具備靈活的多政策、獨⽴資源來自動合并小檔案,維護成本更低,讀取性能更好。
  • 實時資料快速讀寫:開源湖倉技術的實時資料寫入基于Merge on Read,雖然寫得快,但讀起來很慢。TDH9.3優化了實時資料寫入的合并邏輯,避免大量檔案在讀時再合并,實作寫快讀快,具有更好的分析和加工性能。
  • 無需流轉,湖倉集一體化存儲:開源湖倉技術在集市分析場景下需要流轉到外部分析引擎中,而基于TDH9.3的湖倉集一體架構,實作了湖倉集統一存儲格式,資料⼀體化存儲不備援,也無額外資料流轉開銷,整體系統複雜度更低,綜合時效性和性能更強。

向量化計算引擎更新,引入CodeGen技術

TDH9.3在存儲更新的同時,向量化計算引擎引入了CodeGen代碼生成技術,将複雜的、高開銷的算⼦代碼⽣成為能更⾼效調⽤GPU指令集的Native Code。生成的Native Code邏輯更簡單,避免了多餘的運算和函數調⽤,運⾏更⾼效,同時Native引擎也不會GC(垃圾回收),避免因GC導緻性能降低。

綜合性能大幅提升,再破TPC性能巅峰

TDH是全球首個通過TPC-DS基準測試并經官方審計的産品,此次存儲和計算引擎的雙重更新,在TPC标準測試集中,TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3個測試集的性能。

  • 在TPC-DS 10TB測試集中,TDH⽐目前公開的最好成績,性能提升了27%。
  • 在TPC-BB 3T測試集中,TDH是目前公開的最好成績的2倍,同時系統成本降低了67%。
  • 在TPC-HS 3T測試集中,TDH比目前公開的最好成績,性能提升3%,同時系統成本降低了69%。

此外,經過很多實際業務的驗證,通過将CDH業務遷到TDH上,簡單的業務加工性能是CDH的1.26倍,複雜業務加工是2.69倍,并發跑批是2倍,業務查詢是1.66倍。而在替換開源資料庫GP後,TDH在複雜分析上基本上能實作4-9倍的性能提升。

多模型融合,加速業務創新

随着業務的複雜化和多樣化,企業需要存儲和處理不同模型的資料,比如圖資料、時序資料、時空資料等。TDH在2020年正式釋出多模型資料統一處理技術後,每年都會釋出新的模型,來滿足不同業務場景和不同分析的需求。

多模型能力更新,全新釋出分布式向量資料庫Transwarp Hippo

TDH9.3在原多模型能力基礎上新增分布式資料庫Transwarp Hippo,實作10種存儲引擎支援11種資料模型,同時對原存儲引擎進行更新,提供更高的性能和更強的功能,幫助企業使用者滿足更多以及要求更高的業務場景。

作為一款企業級雲原生分布式向量資料庫,星環Hippo支援存儲、索引以及管理海量的向量式資料集,高效地解決向量相似度檢索、高密度向量聚類等問題。

與開源的向量資料庫不同,Hippo具備高可用、高性能、易拓展等特點,支援多種向量搜尋索引,支援資料分區分片、資料持久化、增量資料攝取、向量标量字段過濾混合查詢等功能,能很好地滿足海量向量資料的高實時性查詢、檢索、召回等場景。

在大模型場景中,通過預處理将各種類型的文檔、圖檔、音視訊等非結構化資料轉化為多元向量資料存儲在Hippo中,可以很好地解決大模型無法内置快速變化的資訊,輸入能力受限等問題。通過将Hippo和星環分布式圖資料庫StellarDB、大模型結合,可以建構業務域知識圖譜和業務系統的應用服務,進一步提高人機互動的效率,提供更靈活的組合業務服務,激發出更精準更深入的業務場景應用。

多模型統一技術架構

如上述所說,不同的資料模型往往需要獨立的平台來處理,而這些不同的産品在接口标準上不一緻,開發者和業務分析人員需要掌握不同的語言去通路、使用、操作這些資料。同樣,這些産品也使用了各自獨立的計算引擎和存儲,資料存儲在各自的生态中難以互通,在業務上如果涉及到了跨模型的混合業務,需要把資料從一個平台導入到另一個平台中,ETL流轉效率低,同時也難以保證資料的準确性、一緻性和實效性。

TDH在2020年5月就實作多模型資料的統一處理技術,支援同一平台一站式處理多種不同的資料模型。在TDH多模型的統一架構下,實作系統架構的四層統一。

底層基于容器化技術實作資源的統一排程管理,保障資源隔離互不影響。通過分布式存儲管理系統實作了多種模型資料的統一存儲管理,統一的計算引擎自動比對算法以提升不同資料模型的處理能力。上層通過統一的資料操作/語言來統一處理不同業務的請求。

使用者隻需一個SQL就可以實作不同資料模型的操作和查詢,模型轉化流轉以及跨模型關聯分析,大大簡化了開發複雜度,簡化使用者操作。同時資料也仍保留在原存儲引擎中,也不用對資料進行導入導出或者轉換,不會存在資料不一緻或資料備援存儲的問題,具有複雜度低、開發成本低、運維成本低、資料處理效率高等優點。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

跨模型關聯分析

基于TDH多模型統一技術架構,使用者不需要獨立建設不同的資料庫,分開運維管理,在做資料分析時也不需要單獨連接配接不同資料庫,開發不同的腳本,而是基于統⼀資料管理映射為不同的表,并且針對不同模型的特性,實作模型特有的文法,如圖資料檢索文法,⽂本搜尋文法來滿⾜不同模型的處理需求,通過統⼀的計算引擎将多種模型的處理和關聯統一處理。

工業時序裝置監控與分析(時序資料+關系型資料) 工業IoT裝置實時産生大量的時序資料,對于這類資料具有資料量大、生成頻率高等特點,要求存儲模型有較⾼的壓縮率和實時寫⼊能⼒,通常企業會使用專門的時序模型。在裝置監測和分析時,除了時序資料外,⽤戶往往需要結合裝置的⼀些其他資訊,例如裝置來源、故障記錄、保養記錄來綜合分析裝置的運⾏狀況,這些資料通常存儲在關系型資料庫中,是以需要時序資料和關系型資料關聯分析的能⼒。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

航空資料分析(時空資料+關系型資料) 航空資料分析場景中,航空軌迹資料⼀般包含了⼤量的坐标點位資訊,通常存儲在時空模型中。在航空軌迹分析中,除了時空資料外,往往也需要結合航班的其他資訊例如起降時間、機場資訊等存儲在關系型資料庫中的資料進⾏綜合的分析。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

基于TDH多模型統⼀技術,使用者隻需一句SQL就可以将多種模型資料直接關聯分析,大幅降低了開發的複雜度,避免了複雜的資料流轉,提升了分析效率。

融合開放,國産化替代平滑更新

TDH是星環科技自主研發的大資料基礎平台,根據工信部電子第五研究所代碼掃描測試報告,TDH 的1200萬行代碼裡自研代碼率超過70%。差別于開源及封裝産品,不能自主可控,很多元件受美國法律限制,不能規避“被制裁”風險。部分産品有license風險,如ES已經改開源license政策了,後續商用存在一定的風險。

在相容性方面,TDH基礎存儲和計算元件相容CDH/HDP,遷移成本低,同時提供遷移工具,幫助使用者将原系統裡的資料遷移到TDH,并可以進行自動資料校驗,保證整個流程平滑、安全進行。此外,在CDH等國外産品遷移方面,TDH具有大量成功實踐,不存在遷移風險。

融合開放,平滑遷移

對于SQL類業務,TDH9.3持續優化SQL相容性,在Oralce、TD、DB2、Hive文法上,保證SQL的平滑遷移。

對于API對接開發類業務,TDH完成了與ES、Spark、Flink等的适配,保障這類應⽤平滑遷移。同時,TDH也提供與之對應的自研産品,提供更先進的技術架構、更高的性能、更好的穩定性以及易用性等。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

在⼯具方面,TDH不僅與如Sqoop、Flume、Logstash等做了适配,并能提供全套的工具元件,如SQL開發工具、輕量級ETL工具、資料排程工作流工具、圖形化資料模組化工具、互動式分析與Cube設計工具、中繼資料管理工具、可視化報表、大資料治理工具、災備工具等大量易用性工具。

TDH9.3新一代湖倉集存儲,多模型統一架構,驅動高效資料價值

結構化資料自動歸檔

在實際遷移中,很多使用者會繼續使⽤開源資料格式,比如ORC、Text,但這些開源格式不具備事務能⼒,無法進⾏小檔案合并,需要⽤戶根據檔案大小,重建立表導數,在表多、資料量⼤的情況下,性能開銷較大,嚴重的會影響業務的正常進行。TDH 9.3新增了結構化資料自動歸檔能力,能夠支援并自動合并開源的ORC、Text,降低了使用者在開源⾮事務格式上的小檔案運維成本。合并過程中,計算資源獨立,對業務透明無影響,并且可以靈活配置合并政策,配合監控功能可以完整監控小檔案合并過程和狀态。

國産化生态适配,針對性優化性能提升

TDH已完成與主流信創生态廠商的适配互認工作,适配長城飛騰、華為泰山、浪潮等伺服器,鲲鵬、飛騰CPU,麒麟、統信等作業系統,同時同一叢集可支援基于ARM與X86伺服器混合部署并有落地案例,最大化利用硬體資源,讓使用者實作逐漸替換。在性能上,TDH根據不同硬體和場景進⾏相應的優化,充分發揮國産ARM架構多核CPU的優勢,部分場景下性能與X86架構相當。

以上就是星環科技大資料基礎平台TDH 9.3,幫助企業簡化系統複雜度,降低運維成本,讓⼤資料開發者更⾼效地進行資料價值挖掘。

繼續閱讀