星環科技TDH一直緻力于給使用者帶來高性能、高可靠的一站式大資料基礎平台，滿足對海量資料的存儲和複雜業務的處理需求，同時在易用性方面持續深耕，降低使用者開發和運維成本，讓資料處理平民化，助力使用者以更便捷、高效的方式去挖掘資料價值。

基于這樣的宗旨，星環科技TDH正式釋出了9.3版本，推出了新一代湖倉集存儲格式Holodesk，一份資料滿足資料湖的離線實時接入、數倉的複雜加工以及資料集市的分析需求，避免資料備援，減少資料流轉，提升業務綜合性能與時效性。同時，分布式計算引擎實作了向量化更新，綜合性能大幅度提升。此外，TDH 9.3對多模型統一技術架構進行了疊代更新，全新釋出分布式向量資料庫Transwarp Hippo，共支援11種模型資料統一存儲管理，用統一查詢處理語言完成跨模型資料流轉與關聯分析，讓業務開發更加便捷。

新一代湖倉集一體架構, 打破湖倉集邊界

傳統湖倉集混合架構，需要部署多個平台進⾏資料存儲，造成資料備援和存儲資源浪費。其次，資料需要跨平台ETL流轉，流轉開銷高，時效性較差。資料跨平台流轉中還容易導緻不⼀緻，影響業務正确性。此外，多平台的開發标準不一緻，存在一定的技術門檻，權限管理複雜。當需要跨層資料時，嚴重依賴其他部門的資料⼯程師、資料科學家來加⼯資料，對資料分析師來說，資料分析探索的效率大大降低。

TDH9.3 打破資料湖、資料倉庫、資料集市的邊界，基于湖倉集一體平台，所有人都可以通路實時的資料、曆史的資料、原始的資料、加工過的資料，如業務分析師可以直接通路最原始的資料，資料工程師可以更高效地模組化，資料科學家可以橫跨不同的資料源進行資料分析和挖掘。

基于TDH9.3湖倉集一體架構，各種類型的資料通過資料內建工具，通過離線或者實時的方式加載到TDH中，結構化資料統⼀由Holodesk來承載湖倉集的存儲。通過統⼀SQL引擎和統⼀計算引擎，實作湖倉集資料的統⼀處理、查詢、加工，支撐多種應⽤場景。配合統⼀的運維、審計、權限、告警等功能實作平台的統⼀管理，避免重複建設。

一種存儲格式，滿足湖倉集關系型資料存儲需求

TDH 9.3将之前的⾼性能存儲格式Holodesk進行了重構，隻需一個存儲格式即可同時滿足湖倉集的資料接入、數倉加工和高性能資料分析。在全新的存儲引擎下，可以将湖倉集的所有資料都放在統一的存儲格式裡，不需要針對不同的建設去使用不同的存儲引擎，能夠同時⽀持離線批量資料和實時資料的接入，同時也支援高性能的模型加工、批處理、線上分析等計算需求。

相比ORC，更多功能、更高性能相比于之前版本的ORC事務表，TDH9.3的Holodesk具有更多的功能和更高的性能。

無需手工分桶：ORC事務表需要手動分桶，對開發和運維人員是非常大的挑戰。TDH9.3 Holodesk不需要手動分桶，存儲引擎自動做資料切片和分布式，使用者無需關注分桶數，大幅簡化了建表流程和成本。
非分桶檔案自動合并：Holodesk具有更靈活，更多政策的檔案管理系統，自動将任意的非分桶檔案按照合适的大小進行合并，避免桶檔案過大或過小的情況，減少運維上的投入。
高頻實時資料寫入：實時場景下，Holodesk支援實時流計算引擎Slipstream的實時資料寫入和Batch Insert批量寫入，滿足資料湖的實時資料接入需求。
性能數倍提升：Holodesk的IO性能是ORC事務表的10倍以上，在TPC-DS 1TB資料集測試中，相⽐于ORC事務表，TDH 9.3 Holodesk的性能提升了3倍。

相比開源湖倉，創新技術降本增效相比于開源湖倉技術，如Hudi / Iceberg等，TDH湖倉集一體在多項技術方面實作了提升和創新，幫助使用者降低開發運維成本，提高開發分析效率，提升資料處理分析性能。

四種事務隔離級别：開源湖倉技術一般是基于快照的事務隔離，而TDH支援完整四種事務隔離級别，特别是在複雜的高并發比數倉業務場景下，使用者可以根據業務需求調整事務隔離級别，滿足不同僚務處理的要求。
小檔案靈活、自動合并：開源湖倉技術小檔案需要手工合并管理，需要通過代碼來調⽤，維護成本較⾼。TDH具備靈活的多政策、獨⽴資源來自動合并小檔案，維護成本更低，讀取性能更好。
實時資料快速讀寫：開源湖倉技術的實時資料寫入基于Merge on Read，雖然寫得快，但讀起來很慢。TDH9.3優化了實時資料寫入的合并邏輯，避免大量檔案在讀時再合并，實作寫快讀快，具有更好的分析和加工性能。
無需流轉，湖倉集一體化存儲：開源湖倉技術在集市分析場景下需要流轉到外部分析引擎中，而基于TDH9.3的湖倉集一體架構，實作了湖倉集統一存儲格式，資料⼀體化存儲不備援，也無額外資料流轉開銷，整體系統複雜度更低，綜合時效性和性能更強。

向量化計算引擎更新，引入CodeGen技術

TDH9.3在存儲更新的同時，向量化計算引擎引入了CodeGen代碼生成技術，将複雜的、高開銷的算⼦代碼⽣成為能更⾼效調⽤GPU指令集的Native Code。生成的Native Code邏輯更簡單，避免了多餘的運算和函數調⽤，運⾏更⾼效，同時Native引擎也不會GC（垃圾回收），避免因GC導緻性能降低。

綜合性能大幅提升，再破TPC性能巅峰

TDH是全球首個通過TPC-DS基準測試并經官方審計的産品，此次存儲和計算引擎的雙重更新，在TPC标準測試集中，TDH再⼀次突破了TPC-DS、TPC-BB、TPCx-HS 3個測試集的性能。

在TPC-DS 10TB測試集中，TDH⽐目前公開的最好成績，性能提升了27%。
在TPC-BB 3T測試集中，TDH是目前公開的最好成績的2倍，同時系統成本降低了67%。
在TPC-HS 3T測試集中，TDH比目前公開的最好成績，性能提升3%，同時系統成本降低了69%。

此外，經過很多實際業務的驗證，通過将CDH業務遷到TDH上，簡單的業務加工性能是CDH的1.26倍，複雜業務加工是2.69倍，并發跑批是2倍，業務查詢是1.66倍。而在替換開源資料庫GP後，TDH在複雜分析上基本上能實作4-9倍的性能提升。

多模型融合，加速業務創新

随着業務的複雜化和多樣化，企業需要存儲和處理不同模型的資料，比如圖資料、時序資料、時空資料等。TDH在2020年正式釋出多模型資料統一處理技術後，每年都會釋出新的模型，來滿足不同業務場景和不同分析的需求。

多模型能力更新，全新釋出分布式向量資料庫Transwarp Hippo

TDH9.3在原多模型能力基礎上新增分布式資料庫Transwarp Hippo，實作10種存儲引擎支援11種資料模型，同時對原存儲引擎進行更新，提供更高的性能和更強的功能，幫助企業使用者滿足更多以及要求更高的業務場景。

作為一款企業級雲原生分布式向量資料庫，星環Hippo支援存儲、索引以及管理海量的向量式資料集，高效地解決向量相似度檢索、高密度向量聚類等問題。

與開源的向量資料庫不同，Hippo具備高可用、高性能、易拓展等特點，支援多種向量搜尋索引，支援資料分區分片、資料持久化、增量資料攝取、向量标量字段過濾混合查詢等功能，能很好地滿足海量向量資料的高實時性查詢、檢索、召回等場景。

在大模型場景中，通過預處理将各種類型的文檔、圖檔、音視訊等非結構化資料轉化為多元向量資料存儲在Hippo中，可以很好地解決大模型無法内置快速變化的資訊，輸入能力受限等問題。通過将Hippo和星環分布式圖資料庫StellarDB、大模型結合，可以建構業務域知識圖譜和業務系統的應用服務，進一步提高人機互動的效率，提供更靈活的組合業務服務，激發出更精準更深入的業務場景應用。

多模型統一技術架構

如上述所說，不同的資料模型往往需要獨立的平台來處理，而這些不同的産品在接口标準上不一緻，開發者和業務分析人員需要掌握不同的語言去通路、使用、操作這些資料。同樣，這些産品也使用了各自獨立的計算引擎和存儲，資料存儲在各自的生态中難以互通，在業務上如果涉及到了跨模型的混合業務，需要把資料從一個平台導入到另一個平台中，ETL流轉效率低，同時也難以保證資料的準确性、一緻性和實效性。

TDH在2020年5月就實作多模型資料的統一處理技術，支援同一平台一站式處理多種不同的資料模型。在TDH多模型的統一架構下，實作系統架構的四層統一。

底層基于容器化技術實作資源的統一排程管理，保障資源隔離互不影響。通過分布式存儲管理系統實作了多種模型資料的統一存儲管理，統一的計算引擎自動比對算法以提升不同資料模型的處理能力。上層通過統一的資料操作/語言來統一處理不同業務的請求。

使用者隻需一個SQL就可以實作不同資料模型的操作和查詢，模型轉化流轉以及跨模型關聯分析，大大簡化了開發複雜度，簡化使用者操作。同時資料也仍保留在原存儲引擎中，也不用對資料進行導入導出或者轉換，不會存在資料不一緻或資料備援存儲的問題，具有複雜度低、開發成本低、運維成本低、資料處理效率高等優點。

跨模型關聯分析

基于TDH多模型統一技術架構，使用者不需要獨立建設不同的資料庫，分開運維管理，在做資料分析時也不需要單獨連接配接不同資料庫，開發不同的腳本，而是基于統⼀資料管理映射為不同的表，并且針對不同模型的特性，實作模型特有的文法，如圖資料檢索文法，⽂本搜尋文法來滿⾜不同模型的處理需求，通過統⼀的計算引擎将多種模型的處理和關聯統一處理。

工業時序裝置監控與分析（時序資料+關系型資料）工業IoT裝置實時産生大量的時序資料，對于這類資料具有資料量大、生成頻率高等特點，要求存儲模型有較⾼的壓縮率和實時寫⼊能⼒，通常企業會使用專門的時序模型。在裝置監測和分析時，除了時序資料外，⽤戶往往需要結合裝置的⼀些其他資訊，例如裝置來源、故障記錄、保養記錄來綜合分析裝置的運⾏狀況，這些資料通常存儲在關系型資料庫中，是以需要時序資料和關系型資料關聯分析的能⼒。

航空資料分析（時空資料+關系型資料）航空資料分析場景中，航空軌迹資料⼀般包含了⼤量的坐标點位資訊，通常存儲在時空模型中。在航空軌迹分析中，除了時空資料外，往往也需要結合航班的其他資訊例如起降時間、機場資訊等存儲在關系型資料庫中的資料進⾏綜合的分析。

基于TDH多模型統⼀技術，使用者隻需一句SQL就可以将多種模型資料直接關聯分析，大幅降低了開發的複雜度，避免了複雜的資料流轉，提升了分析效率。

融合開放，國産化替代平滑更新

TDH是星環科技自主研發的大資料基礎平台，根據工信部電子第五研究所代碼掃描測試報告，TDH 的1200萬行代碼裡自研代碼率超過70%。差別于開源及封裝産品，不能自主可控，很多元件受美國法律限制，不能規避“被制裁”風險。部分産品有license風險，如ES已經改開源license政策了，後續商用存在一定的風險。

在相容性方面，TDH基礎存儲和計算元件相容CDH/HDP，遷移成本低，同時提供遷移工具，幫助使用者将原系統裡的資料遷移到TDH，并可以進行自動資料校驗，保證整個流程平滑、安全進行。此外，在CDH等國外産品遷移方面，TDH具有大量成功實踐，不存在遷移風險。

融合開放，平滑遷移

對于SQL類業務，TDH9.3持續優化SQL相容性，在Oralce、TD、DB2、Hive文法上，保證SQL的平滑遷移。

對于API對接開發類業務，TDH完成了與ES、Spark、Flink等的适配，保障這類應⽤平滑遷移。同時，TDH也提供與之對應的自研産品，提供更先進的技術架構、更高的性能、更好的穩定性以及易用性等。

在⼯具方面，TDH不僅與如Sqoop、Flume、Logstash等做了适配，并能提供全套的工具元件，如SQL開發工具、輕量級ETL工具、資料排程工作流工具、圖形化資料模組化工具、互動式分析與Cube設計工具、中繼資料管理工具、可視化報表、大資料治理工具、災備工具等大量易用性工具。

結構化資料自動歸檔

在實際遷移中，很多使用者會繼續使⽤開源資料格式，比如ORC、Text，但這些開源格式不具備事務能⼒，無法進⾏小檔案合并，需要⽤戶根據檔案大小，重建立表導數，在表多、資料量⼤的情況下，性能開銷較大，嚴重的會影響業務的正常進行。TDH 9.3新增了結構化資料自動歸檔能力，能夠支援并自動合并開源的ORC、Text，降低了使用者在開源⾮事務格式上的小檔案運維成本。合并過程中，計算資源獨立，對業務透明無影響，并且可以靈活配置合并政策，配合監控功能可以完整監控小檔案合并過程和狀态。

國産化生态适配，針對性優化性能提升

TDH已完成與主流信創生态廠商的适配互認工作，适配長城飛騰、華為泰山、浪潮等伺服器，鲲鵬、飛騰CPU，麒麟、統信等作業系統，同時同一叢集可支援基于ARM與X86伺服器混合部署并有落地案例，最大化利用硬體資源，讓使用者實作逐漸替換。在性能上，TDH根據不同硬體和場景進⾏相應的優化，充分發揮國産ARM架構多核CPU的優勢，部分場景下性能與X86架構相當。

以上就是星環科技大資料基礎平台TDH 9.3，幫助企業簡化系統複雜度，降低運維成本，讓⼤資料開發者更⾼效地進行資料價值挖掘。

TDH9.3新一代湖倉集存儲，多模型統一架構，驅動高效資料價值

新一代湖倉集一體架構, 打破湖倉集邊界

多模型融合，加速業務創新

融合開放，國産化替代平滑更新

繼續閱讀

🚩重磅！《國資報告》帆軟專刊正式釋出！🚩重磅！集結八大央國企标杆案例，《國資報告》帆軟專刊正式釋出！由國務院國資委主管的

節假日堵車成常态，交通指揮中心怎樣深挖資料價值實作精準排程？

REVA業務講解：Web3.0是一個開放的，人人都可以參與，無需授權、去中心化的網絡。而NFT的稀缺性、唯一性和可驗證性

某大型電器集團攜手富通雲騰企業雲盤全面提升資料價值

數字工廠“雲端漫步”：集裝箱巨頭解鎖IoT資料價值

助力企業釋放資料價值 Hitachi Vantara賦能千行百業數字化轉型

在全面到來的AI浪潮中重新讀懂資料價值

實作資料價值的深度利用，是企業避免數字化轉型誤區的關鍵

破浪終有時，雲帆濟滄海！華為雲用GaussDB重塑金融資料價值

降低資訊門檻，提升資料價值——行業知名BI廠商測評分享

洞察丨挖掘遊戲行為資料價值的 6 個新思路

數字經濟時代的寶庫，了解資料價值化如同打開财富之門

釋放辦公資料價值金山辦公助力西部地區數字化轉型

“三步走”建構全鍊路資料能力，助力企業全面喚醒資料價值

企業如何進行數字化轉型之五：形成數字資産，資料驅動決策“數字化”不是目的，如何讓“數字”沉澱為可複用的資産，反哺業務持續