天天看點

管理超大規模資料中心的五個實用經驗

資料中心擴大規模時,大多數it團隊會尋求這樣一種管理控制台:能夠提供一種直覺、全面的視圖,進而簡化日常的管理任務。it團隊在管理超大規模的資料中心時,還學會了尋找這樣一種控制台:可以調用如今的資料中心平台帶來的細粒度資料。這包括每一個伺服器、機架或整屋子計算裝置的實時用電情況和溫度。

第一個經驗:别忽視了“小”資料。

整合能源管理中間件的管理控制台可以把這些資料中心的資料點聚合到一覽無遺的熱相圖和電力圖,并将用于趨勢分析和容量規劃的所有資料記入日志。之後可以充分利用這些資料,用于各種削減成本的實踐。比如說,資料中心的團隊可以根據實際的耗電情況,更高效地配置機架。要是不了解實時模式,資料中心團隊就隻好依賴電源額定功率和靜态的實驗室測試。

一種示例性的使用場合表明了實時監控與靜态計算之間的重大差別。配置4000瓦電量的機架時,傳統的計算方法導緻資料中心團隊為每個機架安裝大約10台伺服器。(在這個例子中,伺服器電源額定功率為650瓦,實驗室測試表明400瓦對預期的配置而言是個穩妥的數值。)

同樣這個團隊對耗電量執行實時監控後發現,伺服器的用電量很少超過250瓦。了解這個情況後,團隊将為機架配置的伺服器數量增加到16台,計算容量增加了 60%。萬一任何某一個機架中的伺服器帶來的需求讓總耗電量超過機架門檻值,以免造成破壞,資料中心團隊同時為每個機架采取了保護性的電量封頂,這會在下面的第五個經驗中作更詳細的解釋。

第二個經驗:消除幽靈伺服器。

一旦資料中心團隊有能力監控實時耗電情況,評估工作負載在整個資料中心的配置設定狀況就成了一項簡單的工作。很容易發現通常未得到充分利用的伺服器和機架。經過一段時間後,資料中心管理人員就能确定可以合并或精簡哪些伺服器。幽靈伺服器是上了電但處于閑置狀态的系統,可以讓它們處于節省電力的睡眠模式。可以采取諸如此類的節能措施,避免能源浪費,因而可以縮短用電預算。實際情況表明,如果處理好幽靈伺服器,無論規模大小,普通的資料中心可以将預算縮減15%到20%。

第三個經驗:選擇軟體而不是硬體。

超大規模營運常常橫跨分布在不同地區的多個資料中心,這樣一來遠端管理顯得至關重要,以確定服務的日常連續性。目前的全球經濟氣候讓許多企業和機構面臨同樣的情形,it部門在設法高效地管理多個站點,又不必将人手增加一倍,或将時間浪費在奔波于多個地方。

遠端鍵盤、視訊和滑鼠(kvm)技術在過去幾十年有了長足發展,可幫助it部門與時俱進,但硬體kvm解決方案因而變得日益複雜起來。為了避免管理管理覆寫系統(management overlay)本身,許多世界上最龐大、最複雜的基礎設施的操作人員在采用軟體kvm解決方案,最近還在采用虛拟化的kvm解決方案。

即便對普通的資料中心而言,節省的成本也會迅速積少成多。it團隊應該把任何現有的kvm切換器和擴充卡的成本以及相關的許可費(切換器軟體、帶内許可證和帶外許可證等)加起來。一套典型的硬體kvm切換解決方案其成本通常如下:切換器超過50萬美元,切換器軟體要12.5萬美元,帶内和帶外節點許可證另外要50萬美元。連擴充卡也有可能超過25萬美元。另外,軟體kvm解決方案可以避免100多萬美元的硬體kvm成本。

第四個經驗:适當調高溫度。

世界上一些規模最大的資料中心在監控和管理能源及熱量模式方面有着多年的豐富經驗,它們率先采用了提高環境溫度的營運模式。釋出的數字表明,将資料中心的環境溫度調高1°c,就可以讓資料中心電費減少2%。

适當調高資料中心的環境溫度後,經常檢查局部熱點,并實時監控資料中心裝置,這一步很重要。一旦有效的監控實時到位,就可以逐漸調整工作溫度,并且對照預算和容量規劃來評估節省了多少成本。

第五個經驗:别讓你的機架溫度過高。

由于企業期望以及要求it部門識别和避免原本會幹擾關鍵業務營運的故障,已在超大規模資料中心證明切實可行的任何主動管理方法都應該予以評估,看看有沒有可能适用于規模較小的資料中心。過高的工作溫度會給硬體帶來毀滅性後果,是以要密切關注這會給裝置正常運作時間和生命周期帶來怎樣的影響,這點很要緊。

hadoop 等許多hpc叢集添置了備援和動态負載均衡機制,以便遇到故障後可以順暢恢複。有助于盡量降低超大規模能源需求的同一套基本的監控、警報和自動化控制機制也能幫助規模較小的資料中心識别和消除局部熱點;而從長遠來看,局部熱點會給裝置的健康狀況帶來不利影響。電源和溫度方面采取統一的做法還有助于在資料中心保持更一緻的環境,這最終可以避免損壞裝置的溫度突增和電力尖峰。

除了環境控制外,it團隊還可以充分利用最前沿的能源管了解決方案,它們提供了電力封頂功能。如果設定電力門檻值,就能随心所欲地配置機架,又不用擔心電力尖峰這個風險。在一些地區,電力封頂對保護資料中心避免有幹擾、不可靠的電源起到了重要的作用。

向前看齊

幸好,大多數資料中心在相比超大資料中心和超大規模計算環境風險低得多的規模下運作。不過,任何規模的資料中心都應該将減少能源成本、避免服務中斷視作一個優先事項。如果采用成熟可靠的方法,并充分利用整個資料中心中的所有實時資料,it和設施部門就可以效仿超大規模資料中心,隻需要投入比較少的前期成本和精力,就能獲得重大回報。

作者:何妍 

來源:51cto

繼續閱讀