随着借助軟體使得it容錯持續得到改善,目前的資料中心業界越來越傾向于n +1 ups的架構趨勢,而非2n架構。目前,有兩種常用的方法用于n +1架構的實作:一起并聯多個單一的ups或借助多個配置為n +1備援的内部子產品部署一個單一的ups架構。在本文中,我們将為廣大讀者諸君介紹在内部的“子產品化”備援ups和并聯備援的ups之間進行量化時,所需考慮的關鍵性的權衡要素;并為大家展示當部署了内部備援之後,其所為資料中心帶來的27%的資本成本節約,并使得部署時長縮短了1-2周的時間。此外,我們還将讨論在ups中的容錯對于確定資料中心的可用性、可靠性和可維護性需求得到滿足的重要性。
基于其所支援的負載的臨界性的不同,每處資料中心均需要實作不同程度的備援。雙路徑架構(例如,兩個獨立的電源路徑)能夠提供最進階别的可用性,維護或故障可以在任何系統發生,而不會對負載造成任何影響。
然而,在今天的資料中心,我們在it層正看到越來越多的容錯通過軟體發生。借助諸如虛拟化和超融合等技術,一台伺服器出現故障也就同時意味着it任務也将随之停滞的現象已然一去不複返了。如果一台實體伺服器由于上遊故障而出現故障運作失敗,或需要按計劃進行定期性的維護,資料中心能夠将業務功能遷移到另一台伺服器,另一個pod,另一處機房,或一處完全獨立的資料中心。
盡管可用性仍然是資料中心的關鍵目标,但有些業内人士發現,現在這一目标可以通過諸如在ups這樣的關鍵實體基礎設施系統的n + 1備援來實作。在本文中,我們将為廣大讀者準君詳細闡明能夠幫助您企業實作ups系統n + 1備援的不同方法,并量化投資成本、部署時間、效率和可靠性,同時,還将探讨在ups内部的容錯能力對于確定資料中心的可用性、可靠性和可維護性需求得到滿足的重要性。
術語的澄清
在許多關于資料中心的讨論中,“n + 1”這一術語經常與各種ups配置互換使用。下面,我們将定義關鍵性的術語,以澄清三種具體的“n + 1”配置之間的差別。
l n + 1備援:實作彈性,以確定在元件發生故障的情況下系統可用性的一種手段。元件(n)至少有一個獨立的備份元件(+ 1)。簡而言之, n是指我的需求,而1則意味着我有一個備用。
l 隔離備援:一項特定的n + 1配置。在此配置中,有一個主的或“首要的”ups子產品通常供給給負載。這種配置要求首要的ups子產品為靜态旁路電路有一個獨立的輸入。 “隔離”或“輔助的”ups供給給主ups子產品靜态旁路,并且是完全解除安裝的。
l 并聯備援:一個特定的n + 1配置。由多個并聯的、規模大小相同的ups子產品組成,共用一條輸出總線。并聯備援系統需要ups子產品的容量和模型完全相同。
l 内部“子產品化”備援:一個特定的n + 1配置。這是我們在這本文中所定義的一個新的術語,因為其目前尚缺乏共同的命名;在這一配置中,“+ 1”在ups架構内部發生,一般是在電源子產品級别。在這一配置中,有一個共享的背闆、控制系統和電池廠。
在本文中,我們将為大家重點比較并聯備援和内部“子產品化”備援——兩種n + 1配置,其中的“+1”元件是積極有效的(而不是待機)。下圖1概念性地展示了“+1”在每種情況下的發生。
圖1 并聯備援和内部“子產品化”備援在概念上的差異
配置細節
為了突出強調在選擇一款無備援ups與一款n + 1 ups時的權衡取舍,我們已經分析了三種具體的配置。在這三種情況下,我們選擇了1mw的額定容量。
1、基準的1n配置:一款單一的1000 kw ups,沒有備援(由四個“内部”250千瓦子產品組成);屬于基本情況
2、内部“子產品化”備援n + 1配置:一款子產品化的1000 kw ups,包括五個“内部的”250 kw子產品(其中四個用于容量和一個用于備援)
3、并聯備援n + 1配置:三款500 kw ups “架構”配置作為并聯備援(兩個用于容量和一個用于備援)
基本的1n配置
借助一款1n ups設計,任何元件的故障都需要轉移負載到ups旁路或環繞旁路。最簡單的例子是一款單一的ups額定支撐整個負載。某些ups被設計成子產品化和規模化,而某些則是具備固定的容量。我們所分析的1n ups是一種子產品化設計,由在一個單一的架構内的四個250千瓦的子產品組成,以達到1000千瓦的額定容量。1n也可以由多個單元并聯在一起以共同實作所需的容量來實作。下圖2展示了我們所分析的1n ups。
圖2 基本的“n”配置
内部“子產品化”備援n + 1配置
與在基準情況下所描述的一樣,子產品化的ups也可以通過添加額外的電源子產品來提供n + 1備援。參見下圖3。這種内部子產品化備援n + 1配置與配備了額外的一個第五250千瓦子產品的基準情況是一樣的。電池系統由四個并聯的電池組成,每個電池都有自己的斷路器,是以在一個電池的故障不會導緻整個電池系統的癱瘓。如該圖所示,ups輸出總線和電池(dc)總線是為所有的子產品所通用的,是以它們代表了需要轉換到環繞式旁路的ups系統的單點故障。
圖3 内部“子產品化”備援配置
并聯備援n + 1配置
下圖4顯示了我們所分析的第三種情況。在這種情況下,三款獨立的ups并聯在一起,共用一個輸出總線。每個ups的容量為500千瓦,是以第三個ups是“+1”備援。如該圖所示,借助一個并聯的備援配置,每個ups有其自己的電池系統(每個由三個并聯串組成),其提供了一個額外水準的備援,其在子產品化ups中并不存在。 ups輸出總線仍然代表一個單一故障點,在這種情況下,與其它兩種配置所不同的是,輸出總線是在ups外部且是現場安裝的。
圖4 并聯備援配置
注意,有時并聯備援ups的部署具有一個共同的電池組。這樣做的好處在于節省成本(較少的電池費用),但是,該配置現在在容錯性/可靠性方面更類似于内部的“子產品化”配置。下面的分析假設每個ups都有其自己的電池系統。
資本支出比較
在一般情況下,内置到ups配置中的備援越多,其成本就越昂貴。這對于那些為一個特定水準的備援制定業務案例的資料中心管理者們而言是具有挑戰性的。如下,我們将對上述三種配置進行一個資本成本分析,以幫助資料中心的決策者們進行成本/收益的權衡。
方法和假設
當估計每種設計的成本時,我們使用了配置的詳細單線圖。資本成本包括了材料和安裝費用。安裝成本包括勞動力和所有的電纜、管道、吊架、釺柄等,材料成本包括ups、維修旁路櫃、輸出斷路器、電池系統及元件裝配服務。我們已經排除了輸入斷路器,因為其通常被假定為安裝在建築内部。
未包括在本分析中的額外的成本費用有:纜繩裝備、存儲、持續的維護和空間費用。即使是為每種配置的一個理想的布局,較之其他兩種配置,第三種配置也将需要約25%以上更多的空間,這代表了當建築資料中心空間時,所帶來的額外的節省。
分析的關鍵假設是:
安裝成本是基于弗吉尼亞州北部的美國平均電氣裝置安裝率。
所有電線被置于電氣金屬管(emt)内。
ups的輸入開關距離主開關裝置15米( 50英尺)。第一二種配置采用1600a 3線纜+ 接地線;第三種配置采用2000a 3線纜+ 接地線。
ups距離ups輸入開關3米(10英尺)。 第一二種配置采用1600a 3線纜+接地線達到1000千瓦的ups,而第三種配置采用
800a 3線纜+接地線達到均為500千瓦的三個ups。
輸出ups開關裝置距離ups 3米(10英尺)。第一二種配置采用1600a 3線纜+ 接地線;第三種配置采用700a 3線纜+ 接地線。
環繞(維修)旁路距離為6米(20英尺)。第一二種配置采用1600a 3線纜+ 接地線;第三種配置采用2000a 3線纜+ 接地線。
負載距離ups輸出開關15米(50英尺)。第一二種配置采用1600a 3線纜+ 接地線;第三種配置采用2000a 3線纜+ 接地線。
調查結果
下圖5總結了三種配置的資本成本之間的差異。如圖5所示,内部的“子產品化”備援是128美元/千瓦(26.9%),資本成本比并聯備援配置低,而基線情況是29美元/千瓦(6.1%),資本成本比内部“子產品化”備援低。
圖5 三種配置的成本/千瓦時比較
下表1按主要費用類别提供了對每種設計的估計費用的更進一步的細分比較。所有費用均歸到額定ups容量的成本/千瓦。雖然在大小容量的ups之間的每千瓦成本是有差異的,但該表格提供了關于各種不同方法之間的相對成本差異的合理指導。
表1 成本比較的詳細結果
部署速度
除了n + 1配置之間的資本成本的差異,對部署的速度也有影響。如下,我們将讨論一個單一的ups的安裝較之一組并聯備援ups的安裝進度。
一個1兆瓦的ups的典型安裝需要大約6-8周的時間跨度(包括關鍵步驟之間的緩沖)。這段時間内發生的主要活動包括:
l 安置ups系統房間的準備,包括清潔墊的準備。這項活動按計劃通常需要配置設定一個星期。然後,在房間準備與傳遞期間通常有一個星期的緩沖時間,以確定房間傳遞真正準備好。
l ups的傳遞和裝配。一個1000 kw的ups系統通常非常笨重。 此步驟一般需要配置設定2至3天的項目進度。
l ups管道的運作。這項工作需要大約一周的時間。
l 線纜和終端配置調試。這項工作通常在日程安排中配置設定一周的時間。
l 啟動和測試。項目進度表一般需要在ups的完全連接配接和排程啟動之間安排大約一周的緩沖。這是考慮到在安裝過程中可能出現的任何意外的問題。然後需要一個星期的測試。
對于1n設計和内部的“子產品化”備援ups而言,這些安裝步驟都是相同的,一個例外是在架構中增加一個額外的電源子產品。是以,安裝成本是相同的。對于一個并聯備援的ups配置,其中大量的ups必須并聯在一起,典型的部署時間要多1 – 2 周或并聯系統需要25%-30%的更長的時間。安裝、配置和保證各機關之間通信的多單元安裝設定的額外現場工作如下:
l 更多終端用于更多的電源
l 更多設定到位的機關
l 更多機關的啟動
l 更多機關加載到測試
l 并聯和同步檢查
l 更多的測試/執行程式
l 更多的控制線和監測點。
借助一個子產品化ups,多個内部的“子產品”可用于增加容量或備援,上述工作清單在出廠設定中完成,這不僅節省了時間,同時也提高了結果的可預測性。除了更快的初始安裝,子產品化的ups具有能夠随着時間的推移以最小的工作實作規模化擴充的能力,使得添加新的ups到非子產品化設計隻需要幾個小時而無需幾天或幾周的時間來布線及調試。
對效率的影響
一款ups的能量效率是取決于其所操作營運的負載。而且,由于增加備援意味着增加額外的(備用)容量,備援可以對效率産生影響。假設1000千瓦額定容量有80%的負載,這是一個典型的門檻值資料中心的操作營運設定,在本文中所分析的ups配置将以800kw的負載操作營運。下表2顯示了對每種配置對于負載百分比的影響,并以這一假定的負載為前提。
表2 配置對ups負載的影響
但是,任何低負載的特定ups的效率,其實是因制造商、模型的不同而異的,并應進行調查作為規劃過程的一部分。下圖6展示出了兩款ups曲線——一種在輕負載情況下,比全負載的效率要低得多(左圖),而另一個則具有一個相對平坦的曲線(右圖)。左圖中的ups具有較大的固定損失,這會導緻其在較輕負載情況下效率下降,在這種情況下,增加備援,會帶來更多的電力成本。讓對于右圖中的ups,添加備援會對能源成本的影響可忽略不計。事實上,最佳效率的載荷範圍是在40-60%内。而在《使大型ups系統更高效》一文中,則詳細介紹了效率曲線的更多背景及資料中心營運點對能源的影響。此外,一款權衡工具(ups效率比較電腦)可幫助對比兩種不同的ups曲線,來分析其對于效率和電力成本的影響。鑒于能源消耗成本對于資料中心而言是一項非常重要的判決準則,是以,對于ups預期的運作負載進行評價是相當重要的。配置中所添加的備援越多,操作營運負載的百分比越低。
圖6 效率和負載之間的百分比關系。左邊的ups在輕負載時的效率要低得多,右邊的ups有平坦的曲線。
風險容忍度
基于其所支援的應用程式的重要性程度的不同,每處資料中心均有不同水準的風險承受能力。正如我們前面提到的,通過像虛拟化和超融合技術,使得it層的容錯能力持續得到改善。基于所部署的技術,以及對于硬體停機成本對于業務(定量和定性)的了解,不同ups配置的成本溢價和可用性的改進,可以就ups的備援水準作出一個适當的決策。
成本分析表明,從一個1n設計到内部的“子產品化”n + 1備援設計有一個小的溢價(6.5%),而從内部的“子產品化”到一個并聯備援n + 1設計則有一個更大的溢價(36.8%)。如下,我們将定性的讨論三種配置的停機風險。下表3總結了這些風險。
表3 停機風險比較
借助1n設計,在ups或其電池内的任何故障都将帶來一個到靜态旁路的轉移。在這種操作模式下,一款實用程式的故障會影響到it硬體。
借助内部的“子產品化”備援,現在有一個備用電源子產品,使得一個單一子產品内的故障不需要轉移到靜态旁路。相反,單個子產品本身會脫機,而負載仍然由其他活動子產品備份。失敗的子產品可以通過在環繞旁路安置整個ups在稍後被替換。然而,在這個設計中會有一個單點故障。例如,電池系統中的一個故障失敗(如電池斷路器跳閘)将強制轉移到靜态旁路,因為隻有一個單一的電池組。同樣,如果ups需要預防性維護,負載将被切換到靜态旁路或環繞旁路,二者都不受電池的保護。
借助一個并聯備援ups配置,對于停機會有一個額外的保護。因為多個獨立的ups都有其自己的電池組,在單個ups或其電池内發生故障時,負載可以留在受保護的ups電源。但是,這又帶來了一種新的危險,通過控制、通信和電纜阻抗,以確定負載在整個ups是共享的。在本文中,我們将聚焦于一個n + 1配置,其中n = 2,但根據所需的總功率和標明的ups的規模,n可以大于2。随着n的增加,不僅成本和部署時間會增加,可靠性也可能會由于所有ups在所有工作模式下平均分擔負載的挑戰的增加而下降。
人為錯誤對各種配置的可用性也會有影響。設計中所涉及的安裝領域的工作越多,停機風險越大。
人為錯誤
安裝過程中的現場工作越多,人為錯誤就越有可能導緻更大的停機風險;而在出廠設定中所完成的工作則更加可預測、更可靠。
在本文所介紹的三種配置,考慮了輸出總線上的故障(将導緻重大故障的負載)。借助一個子產品化ups,該總線是在ups内部,是以,是在出廠時安裝的。而在并聯備援ups的情況下,輸出總線在現場被安裝,這增加了由于人為錯誤所導緻的停機的風險。
一款ups的容錯屬性
容錯使得一款系統能夠在某些元件出現故障的情況下繼續工作(在本案例情況下,即繼續支援it負載)。某些ups被設計為有更高水準的容錯能力。當資料中心在選擇一款ups時,考慮其容錯設計屬性是非常重要的;特别是如果所選的架構是由一個單一的ups架構所組成的(如配置1和2)。下面是容錯設計屬性的示例:
l 電源子產品備援(逆變器/整流器)
l 風扇備援
l 控制器電源備援
l 電池組備援
l 通信總線備援
l 控制系統備援
l 靜态開關大小比預期的最大載荷更大,以适應高峰/階躍負載的it裝置和下遊的pdu
通過在傳統的ups系統解決關鍵單點故障的臨界點,一旦資料中心需要更進階别的備援(如2n),就可能能夠依靠這些機制,確定關鍵負載的運作。下圖7是以這種理念所設計的ups容錯的一個例子。
圖7 施耐德電氣公司具備容錯設計屬性的ups系列:galaxy vx
一個普遍的看法是,實體上分開的機箱需要隔離故障,但其并不總是關于實體分離,而是關于内置于機箱盒子裡的防禦水準。
結論
随着“n + 1”成為資料中心的一個更常見的ups架構,了解并權衡不同的方法就變得更重要。這樣,資料中心的決策者們才有可能基于他們的風險承受能力、資金預算和時間進度安排制定最明智的決策。
在本文中,我們探讨了兩種常見的n + 1部署(并将其與1n設計進行了對比)方法在資本成本、部署時間進度安排、效率和可靠性方面的差異。主要結論概述如下:
l 成本:内部的“子產品化”n + 1備援的ups配置較之一個1n設計的資金成本溢價為6.5%。而并聯備援n + 1配置較之内部“子產品化”n + 1備援配置的資金成本溢價為36.8%。
l 部署時間進度安排:較之部署一個1n設計或内部“子產品化”n + 1配置,并聯備援配置的部署需要多出大約25-30%的時間。這是現場安裝、設定、配置,并確定單獨的各單元之間的通信所需的額外的工作所導緻的結果。随着時間的推移,并行備援配置增加容量也需要更長的時間。
l 對效率的影響:備援會對一款ups的運作負載百分比産生影響,這意味着其對效率和電力成本的影響。然而,在今天許多ups的設計均具有非常平坦的效率曲線(較低的固定損失),其效率峰值在部分負載時。這使得這種影響可以忽略不計。
l 風險容忍度:較之内部的“子產品化”配置,并聯備援配置将為資料中心負載提供更高的可用性。内部的“子產品化”備援設計處于1n和并聯備援設計之間。當選擇一個ups時,考慮設計屬性所導緻的ups容錯是非常重要的。
内部的“子產品化”備援在為一個小的成本溢價規避風險方面提供了顯着的收益,并且對于效率和部署時間進度安排方面相對沒有影響。并聯備援ups提供了更高的風險規避,但在成本和部署時間方面有更高的溢價。最後,要交由資料中心的決策者根據他們的業務需求在不同的設計配置之間進行權衡取舍。
關于作者
本文作者wendy torell是施耐德電氣公司資料中心科學中心的進階研究分析師。她主要負責資料中心設計和操作營運方面的最佳實踐方案研究、發表白皮書和專業論文、開發權衡工具以幫助企業客戶優化他們資料中心環境的可用性,效率和成本。她還就科學的方法和設計實踐方面為企業客戶提供咨詢服務,以幫助他們滿足資料中心的性能目标。她擁有紐約州斯克内克塔迪聯合學院的機械工程學士學位,及羅德島大學mba學位。wendy同時也是asq注冊工程師。
本文轉自d1net(轉載)