天天看點

阿裡巴巴叢集追蹤計劃Alibaba Cluster Trace Program阿裡巴巴叢集追蹤計劃

阿裡巴巴叢集追蹤計劃

https://github.com/alibaba/clusterdata#overview 概述

在阿裡巴巴叢集追蹤程式是由阿裡巴巴集團出版。通過提供來自實際生産的叢集跟蹤,該計劃幫助研究人員、學生和對該領域感興趣的人更好地了解現代網際網路資料中心 (IDC) 的特征和工作負載。

到目前為止,已經釋出了三個版本的trace:

  • cluster-trace-v2017在 12 小時内包含大約 1300 台機器。trace-v2017 首先介紹了線上服務(又名長時間運作的應用程式)和批處理工作負載的搭配。要檢視有關此跟蹤的更多資訊,請參閱相關文檔 ( trace_2017 )。完成簡短調查後即可獲得下載下傳連結( 調查連結 )。
  • cluster-trace-v2018在 8 天内包含大約 4000 台機器。除了具有比 trace-v2017 更大的縮放器外,這條 trace 還包含我們生産批次工作負載的 DAG 資訊。更多詳情請檢視相關文檔( trace_2018 )。調查後提供下載下傳連結(不到一分鐘,
  • cluster-trace-gpu-v2020在 2 個月内包含大約 6500 台機器。它描述了由 阿裡巴巴 PAI(人工智能平台) 在 GPU 叢集上提供的 MLaaS(機器學習即服務)中的 AI/ML 工作負載。檢視已釋出資料、資料模式和資料處理腳本和 Jupyter notebook 的 子目錄 ( pai_gpu_trace_2020 )。

我們将在接下來的幾個月釋出與微服務相關的 cluster-trace-v2021。這些跟蹤包含所有完整調用過程的詳細資訊,包括微服務之間的調用依賴關系、響應時間、接口和通信範式。

我們鼓勵任何人将跟蹤用于學習或研究目的,如果您在使用跟蹤時有任何疑問,請通過電子郵件聯系我們:

alibaba-clusterdata

,或在 Github 上送出問題。建議送出問題,因為讨論将有助于所有社群。請注意,您提出的問題越清楚,您就越有可能得到明确的答案。

如果您能在使用我們的跟蹤的任何出版物可用時告訴我們,我們将不勝感激,因為我們正在維護相關出版物的清單,以便更多的研究人員更好地互相交流。

未來,我們會嘗試定期釋出新的痕迹,請繼續關注。

https://github.com/alibaba/clusterdata#our-motivation 我們的動力

正如開頭所說,我們釋出資料的動機是為了幫助相關領域的人們更好地了解現代資料中心,并為研究人員提供生産資料以改變他們的想法。隻要用于研究或學習目的,您可以随意使用跟蹤。

從我們的角度來看,提供資料是為了解決

阿裡巴巴

在 IDC 中

面臨的挑戰

,其中線上服務和批處理作業并置。我們将挑戰提煉為以下主題:

  1. 工作負載特性。如何以一種我們可以模拟各種生産工作負載的方式表征阿裡巴巴工作負載,以進行排程和資源管理政策研究。
  2. 将工作負載配置設定給機器的新算法。如何為機器配置設定和重新安排工作負載以提高資源使用率并確定不同應用程式的性能 SLA(例如,通過減少資源争用和定義适當的優先級)。
  3. 線上服務排程器 (Sigma) 和批處理作業排程器 (Fuxi) 之間的協作。如何調整線上服務和批處理作業之間的資源配置設定,以提高批處理作業的吞吐量,同時保持線上服務可接受的 QoS(服務品質)和快速故障恢複。随着配置規模(由不同排程器管理的工作負載)不斷增長,協作機制的設計變得越來越重要。

最後但并非最不重要的一點是,我們始終樂于與研究人員合作,以提高我們叢集的效率,并為研究實習生提供職位空缺。如果你有在你的心中什麼想法,請通過以下方式聯系我們

aliababa-Cluster資料

海陽丁

(海陽維護該叢集跟蹤和作品阿裡巴巴的資源管理和排程組)。

https://github.com/alibaba/clusterdata#outcomes-from-the-trace 跟蹤結果

https://github.com/alibaba/clusterdata#papers-using-alibaba-cluster-trace 使用阿裡巴巴叢集trace的論文

我們釋出叢集資料的基本理念是讓研究人員和從業人員能夠使用更真實的資料進行研究、模拟,進而使結果更接近行業采用。使用我們的資料看到更多的作品對我們來說是一個巨大的鼓勵。以下是使用阿裡巴巴叢集資料的現有作品清單。如果您的論文使用了我們的跟蹤,如果您通過發送電子郵件(

aliababa-clusterdata

)告訴我們,

那就太好了

  • 叢集跟蹤 GPU v2020
    • “野外 MLaaS:大規模異構 GPU 叢集中的工作負載分析和排程”,作者 Qizhen Weng、Wencong Xiao、Yinghao Yu、Wei Wang、Cheng Wang、Jian He、Yong Li、Liping Zhang、Wei Lin 和 Yu Ding ,将于 2022 年 4 月在華盛頓州倫頓舉行的第 19 屆 USENIX 網絡系統設計和實作研讨會 (NSDI'22) 上發表。
  • 叢集跟蹤 v2018
    • 表征和綜合阿裡雲中資料并行作業的任務依賴性,作者 Huangshi Tian、Yunchuan Zheng 和 Wei Wang,将于 2019 年 11 月在加利福尼亞州聖克魯斯舉行的 ACM 雲計算研讨會 (SoCC '19) 上發表。
    • Aladdin: Optimized Maximum Flow Management for Shared Production Clusters , Heng Wu, Wenbo ZHANG, Yuanjia XU, Hao XIANG, Tao HUANG, Haiyang Ding, Zheng ZHANG, 2019 IEEE International Parallel and Distributed Processing Symposium (IPDPS)。
  • 叢集跟蹤 v2017

https://github.com/alibaba/clusterdata#tech-reports-and-projects-on-analysing-the-trace 關于分析跟蹤的技術報告和項目

到目前為止,這個會話是空的。未來,我們将在所有者的許可下,将一些報告和開源 repo 連結到如何在此處分析跟蹤。

這樣做的目的是幫助更多的初學者開始學習基本的資料分析或如何從統計的角度檢查叢集。

繼續閱讀