天天看點

MaxCompute2.0性能評測:更強大、更高效之上的更快速

       本次評測側重于已釋出的maxcompute2.0與離線處理同類競品及線上穩定版本的性能對比,通過測試我們看到maxcompute2.0在功能上更強大、使用和釋出更新更高效、開放生态的同時針對線上作業占比80%以上的sql以及其中占比約50%的sql離線批量計算性能有極大提升。

MaxCompute2.0性能評測:更強大、更高效之上的更快速

可以看到,在總體資料量t級别instance數量(百級别)情況,相同資料量相同數量的instance執行性能,maxcompute2.0執行的平均執行性能優于hive2.0ontez(hive2.0已調整最優):

              1- sum with group性能快速1倍

              2-sort-merge join提升約2倍以上

              3-hashjoin提升在1倍以上

              4-stremline提升50%以上

MaxCompute2.0性能評測:更強大、更高效之上的更快速

       為了保證資料的合理性,性能測試資料都是每個測試案例完成多輪測試的穩定值,測試搭建使用獨立的性能評測叢集,測試前清理恢複初始環境,多輪測試非連續執行,連續執行完整個測試集合後再執行下一輪的測試集合。

       圖中整體對比資料為:

              1- maxcompute2.0離線計算比同類産品hive2.0 on tez性能優勢快約90%以上

              2.maxcompute2.0執行95%以上基準sql執行比hive快,同時我們分析了内部執行細節,去除排程等其他消耗時間,maxcompute2.0針對執行的性能改進比hive2.0提升在114%以上

              3-maxcompute2.0比maxcompute1.0性能提升68%

              4-maxcompute2.0比hive2.0 on mr整體優勢提升190%,其中77%的基準sql性能提升2x以上

MaxCompute2.0性能評測:更強大、更高效之上的更快速

              基于飛天的一代執行引擎性能有極大提升外,maxcompute2.0已上線的基于rbo和cbo執行性能優化:

              1- 裁剪規則:列裁剪、分區裁剪、子查詢裁剪

              2- 下推/合并規則:謂詞下推

              3- 去重規則:project去重、exchange去重、sort去重

              4- 常量折疊/謂詞推導

              5- 關聯優化:auto mapjoin、 skew join;實作broadcasthashjoin、shufflehashjoin、mergejoin;join reordering

              6- 聚合優化: hashaggregate、sortedaggregate、deduplicate

              7- 處理優化: groupby下推、exchange下推、sort下推

MaxCompute2.0性能評測:更強大、更高效之上的更快速