天天看點

如何“神還原”資料中心? 阿裡聯合NTU打造了工業級精度的仿真沙盤!

如何“神還原”資料中心? 阿裡聯合NTU打造了工業級精度的仿真沙盤!

阿裡妹導讀:如何保障資料中心的穩定運作,是多年來一直困擾業界的難題。機房環境如果發生未預期變化,可能造成難以估計的損失。是以我們希望能建構一個“變更沙盤”,在真實變更之前,操作人員可以先在沙盤中進行試變更,若變更效果在預期内,再對真實環境進行變更,進而盡可能減少變更導緻的機房故障。

近期,阿裡巴巴-南大聯合研究院聯合實作并上線完成了一個高精度,可連接配接實時監控系統、基于CFD的變更沙盤系統。本系統在off-the-shelf CFD軟體上實作了工業級精度的變更沙盤測試和驗證。今天,我們就來觀摩這個從零到一的嘗試。

項目背景

随着阿裡巴巴業務不斷拓展,其資料中心規模也越來越大。相應地,資料中心内的日常演練、營運優化等變更操作越來越頻繁;而規模增加導緻環境的複雜程度呈指數增長,變更是否可能導緻故障,僅憑專家經驗,已經越來越難以判斷。同時,資料中心變更故障可能造成的業務影響也越來越大,可能造成的損失已難以估計。是以,機房營運人員急需一個标準化的、可靠的機房變更安全驗證系統,幫助他們獲知變更産生的具體效果會是如何,是否影響生産安全,是否有更合理的變更建議。

對于電力變更,可以從電力拓撲圖着手建構變更沙盤。但暖通變更,涉及到氣流組織變化、熱力變化,這些東西看不見也摸不着,傳統的方式難以模拟出現實世界中的變化。IDC營運優化團隊對此進行了一系列調研工作,認為利用計算流體力學(ComputationalFluid Dynamics,簡稱CFD)進行機房仿真是較為可能達到生産标準的一種方式。

現有的類似的解決方案

利用計算流體力學(Computational Fluid Dynamics,簡稱CFD)進行機房仿真是檢查不同變更對機房的熱力學影響的通用解決方案。CFD模組化可以通過搭建實體模型,載入現實中的熱力學設定(冷熱量,空調server風速等)來計算一個包廂内部的氣流分布和溫度情況。CFD模拟有較為成熟的技術積累,并被廣泛應用與熱力學和空氣動力學領域。在資料中心領域,也有從包廂到晶片級的CFD模拟應用。但由于其精度限制,一般隻用于前期設計和規劃。

如何“神還原”資料中心? 阿裡聯合NTU打造了工業級精度的仿真沙盤!

資料中心包廂流線圖

應用CFD建立沙盤系統的挑戰:

1)現有商業CFD軟體可以根據對包廂進行仿真,得到機房的熱力分布、氣流動向。但該軟體通常應用于設計階段,采用設計階段的粗略資料進行模拟,對真實操作情況的還原度較低,溫度預測精度僅能達到3度或以上,不能滿足用于變更沙盤的精度需求。

2)目前CFD軟體以人工互動為主,缺少對自動化操作的支援,不能滿足自動擷取資料和傳回結果的需求。大量的操作隻能通過人機互動進行,效率低下。

3)模組化所需要的資料真實性問題。由于模型的準确性與其所采用的模拟設定與實際是否一緻息息相關,是以擷取的模拟設定資訊(如功耗,空調設定資訊等)準确性非常關鍵。通常這些資訊是在設計階段确定的,也有部分是運作時獲得的。這些資料隻有進行精細的核實才能保證模組化的精度(反過來模組化的過程可以反推設計實施情況和資料的标準化過程)。

我們的解決方案

阿裡巴巴聯合新加坡南洋理工大學(NTU)計算機科學與工程學院文勇剛教授團隊,依托阿裡巴巴-南大聯合研究院平台,通過接近1年的研究,開發和測試,實作并上線完成了一個高精度,可連接配接實時監控系統的基于CFD的變更沙盤系統。本系統在off-the-shelf CFD軟體上實作了工業級精度的變更沙盤測試和驗證。

本次項目標明了某個機房包廂作為技術試點,并在對該機房的實體模組化,模型校準和工程落地上進行了緊密合作。

1)實體模組化:

該過程主要将包廂内各實體結構設定到模型,提供仿真基礎。以達到最好還原度為準則,我們實作了下面所述方面的模組化操作:

結構模組化:對機房結構、牆、通風口、天花闆、管道進行設定

IT部署模組化:機列、機櫃、機位設定

環境模組化:空調裝置、傳感器設定

裝置模組化:按廠商型号導入伺服器模型

2)模型校準

模型校準的主要原則需要達到下述3個方面的真實還原:

機房冷熱溫度來源:校準中需要确認模型中冷熱量與實際一緻。

機房氣流變化原因:校準中需要保證冷熱風氣流與實際一緻。

溫度測量資料:校準中需要保證模型預測溫度與實際一緻。

為了保證模型可以到工業級精度,項目團隊進行了大量的資料核準和模型調整工作。這些工作全方位地對整個機房的相關資訊和設定進行了梳理和核實,并形成了完整的标準化校準文檔,為以後模組化推廣打下了堅實的基礎。這些校準操作可以分為2類:

第1類:資料核準

伺服器核準(包含:少數伺服器U位沖突、伺服器功耗校準)

傳感器核準(包含:空調供風溫度、轉速和冷熱通道傳感器位置、資料)

第2類:模型調整

熱氣洩露設定調整,熱氣洩露會導緻冷通道溫度升高。

機櫃模拟模式調整,設定為細粒度模拟模式。

Server風量設定調整,精确設定server風速以符合實際需求。

依托大量的傳感器資料,通過上述校準操作,最終模型達到了設計階段CFD使用未有過的精度。這些精度來源于我們精确地還原各項硬體的布置,各個操作的資料核準和細粒度的server風速校準。

3)工程落地

如何“神還原”資料中心? 阿裡聯合NTU打造了工業級精度的仿真沙盤!

如圖所示為沙盤系統的流程圖。在模型達到預期精度後,團隊進一步解決了CFD模拟的自動化問題。通過接入阿裡巴巴自研的資料中心實時監控系統(DCIM),我們擷取到實時的伺服器功耗、空調出風溫度和風機轉速等資料,通過6Sigma開放SDK将資料寫入CFD模型,進而使得模型能夠實時模拟包廂内真實情況。此外,一旦仿真計算完成後,我們将計算結果從模型中導出,回傳到監控系統,進而完成一次仿真計算的閉環。

如此,我們實作了将沙盤系統整合進入DCIM系統,并且全程操作可以自動化進行,為将來沙盤系統的應用和推廣打下了堅實基礎。

最終成果:

1)精度達标:模型采用真實的監控資料作為輸入,并計算模拟的目标傳感器測溫與實際的傳感器測溫之間的平均絕對誤差(MAE)來作為模型的準确性的測量依據。經過長時間觀察(采用不同時刻的資料進行驗證),模型模拟精度均能達到阿裡巴巴資料中心建設标準要求。理論上可以替代冷熱通道傳感器,進行資料中心生産包廂環境監控。

2)成功落地:目前該模型已經成功接入DCIM系統,可以自動從DCIM中抓取資料,傳回結果。目前模拟的時耗為大約1小時,通過更新6Sigma License規格未來有希望提升到10分鐘。接入該實時CFD模拟系統意味着阿裡自研DCIM系統成為世界上唯一有高精度實時CFD模拟子產品的資料中心雲維管理系統。

變更沙盤系統的價值

包廂可視化:由原來的2D、數字的方式,更新為3D、圖形數字結合的展現方式,包括實際布局、熱力情況、氣流情況,進而可以讓機房經理與設施專家能更直覺、全面、迅速地了解機房的整體情況,更快發現包廂暖通環境問題,輔助優化現場供冷配置設定與氣流組織。

故障發現:可以厘米級别監測包廂内的溫度,快速發現溫升(局部熱點),進而具備更快、更強的風險識别能力,防止出現大範圍的機房溫升事件。

設計驗證:模組化過程所需要的實體設定資訊通常決定于設計階段。模組化過程中得到的誤差回報資訊可以直接驗證設計與實施的差别。

設計優化(變更指引):沙盤系統可以模拟不同設計下資料中心的操作情況,進而可以用于設計上的優化和資料中心變更的先驗平台。

暖通控制推薦:可以通過嘗試不同空調設定應用到目前環境,得到溫度控制最佳、能耗最低的空調設定,實作包廂内供冷可靠、智能的控制。

業務排程推薦:根據詳細的機房溫度分布情況,結合功耗水位資料,可以向業務排程系統提供排程參考,使得業務分布更均勻,機房溫度分布也更加均勻,降低制冷能耗,提升伺服器健康度。

未來展望

未來合作的方向之一是對變更沙盤系統進行産業級推廣和驗證,目标是做出業界标準。使得變更沙盤系統可以應用與阿裡資料中心的更多機房,去驗證設計和優化管理控制。

未來,我們希望将系統沙盤推廣到整個暖通系統,覆寫到機房外的制冷裝置,實作全鍊條模拟。進而實作整個制冷系統的設計驗證和控制優化。

綜上,變更沙盤系統将可以顯著促進資料中心設計到運維的自動化水準,為實作更穩定更高效的資料中心運維提供支撐。這是一次從零到一的嘗試,我們建構了第一個可實時的、高精度的暖通變更系統,幫助資料中心運維人員能夠判斷一次變更是否可能造成故障,進而減少由變更導緻的故障。進一步,我們可以給出具體的變更後環境變化,給出變更建議,甚至能夠實作自動變更。如此,我們将離機房無人值守的目标越來越近。

原文釋出時間為:2019-01-11

本文作者:阿裡&NTU

本文來自雲栖社群合作夥伴“

阿裡技術

”,了解相關資訊可以關注“

”。