天天看點

TPCx-BB官宣最新世界紀錄,阿裡巴巴計算力持續突破

2019年9月17日,TPC官宣Alibaba Cloud MaxCompute認證結果。同月26日,杭州雲栖大會阿裡巴巴宣布了這一成績,飛天大資料平台計算引擎MaxCompute成為全球首個TPCx-BB認證的公共雲産品,是除Hive、Spark以外TPCx-BB第三個标準支援的大資料引擎。不僅首次将資料規模拓展到100TB,性能達到25641.21QPM,更在TPCx-BB已有最大30TB規模上,将性能提升近一倍,達到6427.86QPM,機關價格下降一半,達到169.76$/QPM。

TPCx-BB官宣最新世界紀錄,阿裡巴巴計算力持續突破

TPCx-BB是由國際标準化測試權威組織(TPC)釋出的基于零售業場景建構的端到端大資料測試基準,支援主流分布式大資料處理引擎,模拟了整個線上與線下業務流程,有30個查詢語句,涉及到描述性過程型查詢、資料挖掘以及機器學習的算法。涵蓋了結構化、半結構化和非結構化資料,能夠從客戶實際場景角度更全面的評估大資料系統軟硬體性能、成本效益、服務和功耗等各個方面。

MaxCompute正是希望能夠從更加接近實際生産場景和客戶場景的角度,來呈現飛天大資料平台的計算性能和成本效益優勢。而MaxCompute在TPCx-BB性能、成本效益等方面的領先無疑是由MaxCompute技術先進性決定的。

作為支撐MaxCompute計算力的核心之一的SQL引擎,包括了編譯器、運作時和優化器3個子產品。SQL編譯器支援标準SQL,100%支援TPC-DS、TPCx-BB文法。運作時支援列式處理和豐富的關系算符,基于LLVM進行微架構級别的優化。優化器支援基于曆史資訊的HBO和基于Calcite的CBO,通過多種優化手段提升MaxCompute SQL的性能。

存儲方面,則使用先進的存儲格式Aliorc,支援列式存儲、靈活的編碼格式、異步預讀及高效的壓縮算法,與開源存儲格式相比,在存儲效率和讀寫效率上都有顯著的提升。MaxCompute以外表的形式支援多種資料源,比如HDFS、OSS外表,可以将TPCx-BB生成在HDFS中的資料高效導入MaxCompute。

排程方面采用基于飛天平台的Fuxi2.0排程系統。其DAG2.0将資源排程overhead控制在了10us級别,遠遠領先業界同類架構。Shuffle2.0通過資料重排,在磁盤和網絡之間找到平衡點,将叢集吞吐效率提升30%。

此外,MaxCompute原生支援阿裡巴巴機器學習平台PAI,使用者可以一站式完成大資料處理與機器學習模型訓練及預測。機器學習PAI是飛天AI平台中的核心産品,建構在阿裡雲MaxCompute等計算平台之上,在機器學習大規模分布式訓練場景擁有非常強的性能表現,在本次TPCx-BB的比賽中,PAI基于MaxCompute,在邏輯回歸、Kmeans、樸素貝葉斯三個算法的表現性能上取得很好的成績。

在MaxCompute/PAI多年的系統優化過程中,英特爾作為阿裡巴巴重要的合作夥伴,提供了許多助力。英特爾作為測試基準中BigBench的重要貢獻者,與阿裡雲開發團隊深入合作,共同擴充TPCx-BB測試集,增加對MaxCompute計算引擎的支援,并一起在TPCx-BB委員會中共同推廣MaxCompute/PAI,促成TPCx-BB官方測試集更新,繼而正式納入阿裡雲MaxCompute/PAI計算引擎的支援。

對于未來雙方在飛天大資料和AI平台(MaxCompute/PAI)持續優化上的合作,英特爾進階首席工程師、大資料分析和人工智能創新院院長戴金權先生表示,雙方在新的硬體架構技術平台有非常緊密的合作,共同探索如何更好地利用新的技術,為大資料處理分析、機器學習平台賦能。另外,雙方也合作緻力于将AI平台和大資料平台緊密聯合,使不同的元件更好地聯合在一起,打通整個計算流水線。