當丹麥和瑞士的國家天氣服務更新了他們的計算能力時,他們都轉向通過開始使用換熱器對超級計算機進行冷卻。
現已證明,超級計算機無需用液體冷卻。多年來, 在資料中心領域,已經開始使用換熱器來為機架散熱,逐漸減少通過crah單元冷卻。
最近有報道顯示,資料中心運維人員已經将crah視為資料中心風險因素。
水冷背門(rdhx)可以用于資料中心内高密伺服器,可以滿足機架功率在20 kw /小時或更大的功率,事實上,水冷背門是為這種超級計算機(高性能計算機)而準備。
(備注:水冷背門(門)(rdhx):簡單的說水冷背門就是在機櫃的後面安裝一個有“冷循環的冷水闆”。概述如下:機組主要由冷水配置設定控制器、背闆熱量交換器等,冷水源由機房公共冷水供應系統提供(冷水配置設定機組)内置熱交換器、水泵、控制閥、及溫度、壓力、濕度等傳感器擷取精确的流量、壓力、溫度、濕度等資料。通過獨特的算法,分别為冷卻水的兩級循環做精确的控制。從通過背闆熱交換器将伺服器産生的熱量最大限度地消除。)
随着機器學習軟體開始進入企業、服務提供商的資料中心,機架密度越來越高,高密機架冷卻是項重要的課題。機器學習算法需要巨大的gpu叢集,故而,需耗費大量電能,是以資料中心功機架功率密度遠遠超出單機架3kw至6kw。
深度學習驅動資料中心功率密度逐漸提高
rdhx系統是時為高密準備,提高業務效率,裝置數量不多。某企業産品架構總監mark simmons表示:“教育,政府,特别是國防部門是rdhx的經典候選人。 “畢竟整個行業還不想被水包圍着。“,這個想法是不是挺有趣的呢?
對于能耗較低的機架,rdhx系統可能不具有成本效益, 大多數資料中心每個機架僅使用3kw至6kw /小時。 即使它們每個機架使用10kw /小時,rdhx依然是昂貴的。
除熱方面:
rdhx系統對強大的計算應用具有經濟意義,因為它們在除熱方面表現優異。
典型的rdhx系統是散熱器式門,其連接配接到具有用于直接熱交換的線圈或闆的機架背面,或者用于冷卻水或冷卻劑。 這種散熱方法非常有效,因為散熱裝置非常接近熱源。” 是以,可以為該區域制冷設立一個獨立房間,而不需要安裝熱/冷的通道。
他們是如此高效,勞倫斯伯克利國家實驗室(lbnl)提出,如果資料中心全是高性能計算機,可以不用安裝crah空調。 在10年前的内部案例研究中,根據伺服器工作負載,冷卻液溫度和流量,伺服器回風溫度降低了10°f(5.5°c)至35°f(19.4°c)。 在這個例子中,48%的廢熱被去除了。
該技術在過去十年中有所改善。 事實上,“rdhx可以降低機架上80%的散熱能力,而資料中心的能耗可以降低50%。”
技術進步
将rdhx系統添加到現有的機架是可能的。這種系統可以提供高達20kw /小時的冷卻,使用在室溫下将相變成氣體的冷卻劑,進而減少将液體引入資料中心的擔憂。其他制造商也正不遺餘力的為自己的機架設計水冷背門。 例如,富士通rdhx系統可以安裝到包含高性能富士通cx400伺服器的primergy機架上。将一個水冷背門安裝到标準的19英寸機架上,隻需機架深度夠深,可以容納其熱交換器。
這不是唯一的改善之處。這種系統現場可更換使用液 ——通過液體交換來直接散熱,而不是通過空氣流。 “這樣可以更快地消除熱量并降低冷卻需求。 這很簡單。“
冷水背闆在設計上,已經考慮到液體洩漏的問題。像雙殼油輪一樣,外殼中将會有任何洩漏,觸發專利的洩漏檢測系統發出警報。
在歐洲正在運作的資料中心中有的已經開始使用水冷背門系統,并預計今年秋季将在美國推出該系統。
制冷效率更高 運作速度更快
由于機架内的熱量積聚,伺服器運作速度較慢。 安裝rdhx可以降低高密資料中心局部熱點的問題。 裝置可以以最大的速度奔跑,因為熱量被消除了。
業内有些人建議rdhx系統可以提供額外冷卻功能,允許伺服器超速運作,進而提高處理速度。
氣流,水或冷卻液
最初,rdhx門通過連接配接到機架後部的大型散熱器來被動地冷卻伺服器, 這些門依靠伺服器内的風扇來消除熱量。 大約在過去三年裡,活動門使用内置風扇帶走伺服器的熱量。
早期的系統和許多現有的系統,都是采用冷凍水來帶走熱量。 最近有一些是通過用40°c溫水去除熱量。 其他的依靠冷卻劑,像流行的r-410a。 下一代rdhx系統可能會探索更高效的制冷劑。
總體效益
rdhx能夠為高性能計算中心、單機架功率高的伺服器機架提供良好解決方案,但它們對為密集型較低的計算環境具有一定價值。
通過有效地去除熱量,這些冷卻系統支援的密度增加,這有助于資料中心可以減少冷卻裝置占地面積。在使用rdhx系統時,資料中心可以将伺服器填滿整個機架。這樣的情況,風冷系統是無法完成的。
通過使用該系統,資料中心可以更容易地分割實體空間。 例如,可以在資料中心内某區域集中整合高性能計算,在該區域使用rdhx系統進行冷卻,在該區域無需安裝crah單元。
事實上,rdhx系統比crah系統更有效率,成本效益更高(針對高性能計算中心而言),更易于安裝,并且可能允許資料中心機架繼續增加裝置。rdhx系統為高密區域的資料中心意義更大。
這種可以後期在機櫃中增加高容量的能力,提升資料中心靈活性,特别是針對一些緻力于滿足當下對電力要求高的、建設年代較早的資料中心。
勞倫斯伯克利國家實驗室(lbnl)幾年前評估對換熱器進行過評估。據報道,水冷背門在将冷凍水溫度設定值高的的條件下,無需耗費過多電能就能充分發揮其良好性能。
根據其技術公告資料中心采用水冷背門機架冷卻,“根據氣候以及管道布置,rdhx裝置可以消除冷水機組的能量,因為它們可以使用連接配接冷卻的闆式換熱器的處理水 。維護包括從換熱器的空氣側除去灰塵,并将水源保持在冷水機組中。
rdhx是否有效取決于調整系統以提供适當冷卻量的能力。 調節制冷劑的能力提高了保護和效率。
rdhx不适合所有領域
這種冷卻方式最适合高性能計算平台。 像google,亞馬遜和network appliance這樣的大型商品化計算公司并不适用于這項技術,因為他們不需要高密度,快速的基礎架構。 對于這些應用,“适合自己的”才是足夠好的。
通常情況下,冷水背闆需要硬管道連接配接到每個機櫃門。 當托管客戶遷出時,這就産生了一個問題,我們需要重新利用空間。“然而,今天的柔性管道可以簡化這個問題,但不能不用管道。
業界專家擔憂将液體引入資料中心帶來的隐患是否遠遠大于其帶來的優勢。 例如,ibm冷水背闆可容納6加侖的水,并支援每分鐘8至10加侖的流速。 災難性的故障可能會使機架與地闆下的布線發生巨大沖擊。 為了避免這種可能性,業界人士專門為資料中心設計裝置走廊,以清除故障發生後帶來的水或冷卻液。”
相比之下,國家實驗室使用具有快速拆卸配件的柔性管道将rdhx系統的冷卻水用于高架地闆下方,可以在安裝時,将管道架高,距離地面有一定的高度,不是直接貼在地面。
事實上,rdhx也使得運維服務變得麻煩。 “你必須打開一扇門才能進入每個機架,并在完成後将其關閉。”這是一個小小的不便,它為維護機架增加了兩個步驟。
另一個問題是確定裝置安全。 目前,基礎設施裝置系統需要維護,事實上,大部分資料中心都會為裝置設立一間專門為裝置放置準備的房間,使維護技術人員能夠在不接觸客戶伺服器的情況下完成工作,進而提高安全性。 目前,水冷背門無法做到這一點。
也有專家認為,一旦建立新的rdhx系統,它們幾乎不需要維護。 因為該系統基本上是閉環系統。 您可以為機櫃設立門禁,卻依然可以對水冷背門進行維護。
冷卻技術的未來
随着未來行業内開發出更新、更高科技的冷卻解決方案時,rdhx對日常計算機操作的實用性會越來越少(現在用到日常的機會也不多)。 在不久的将來,可以将冷卻技術直接應用到晶片。晶片制造商正在開發液體冷卻晶片,進而更直接散發晶片産生的熱量,實作更緊湊的闆卡和伺服器設計。
某廠商研發的液體冷卻技術為已經直接應用到伺服器上,消除伺服器産生的熱量的60%至80%。 這将冷卻成本降低一半,并允許資料中心密度在250%和500%之間增加。 這些晶片中的水通常在40°c,但依舊可以提供充足的冷卻。
目前,大學研究人員正在研究量子冷卻。 德克薩斯大學阿靈頓分校的一個團隊開發了一種計算機晶片,在室溫下工作時,不用冷卻液即可冷卻至-228°c。 (以前的晶片必須浸泡在冷卻液中才能達到這個目的)
(備注:量子冷卻:一般說來,量子冷卻的研究目标就是要降低量子态的平均能量,直至系統處于基态。研究組的理論合作者提出了一種量子冷卻的新方法,通過引入一個輔助量子比特,實作與待冷卻系統的控制耦合。通過對輔助量子比特的測量,實作待冷卻系統高能量部分和低能量部分的區分。将高能量部分剔除後就可以實作系統的量子冷卻,這就像一隻量子的麥克斯韋妖可以輕而易舉地除去量子态中能量高的部分,是以這種方法被稱為麥克斯韋妖式量子算法冷卻。)
為了實作這種高精尖的冷卻技術,稱為量子阱的電子濾波器被設計在晶片中。 這些阱很小,隻有超冷卻的電子可以通過它們,進而冷卻晶片。 該過程處于早期研究階段,但似乎将晶片能耗降低了十倍。
(備注:量子阱:基本特征是由于量子阱寬度(與電子的德布羅意波長可比的尺度)的限制,導緻載流子波函數在一維方向上的局域化,量子阱中因為有源層的厚度僅在電子平均自由程内,阱壁具有很強的限制作用,使得載流子隻在與阱壁平行的平面内具有二維自由度,在垂直方向,使得導帶和價帶分裂成子帶。量子阱中的電子态、聲子态和其他元激發過程以及它們之間的互相作用,與三維體狀材料中的情況有很大差别。在具有二維自由度的量子阱中,電子和空穴的态密度與能量的關系為台階形狀。而不是象三維體材料那樣的抛物線形狀。)
執行清單
與此同時,在量子阱和液冷晶片變得普遍之前,高性能資料中心可以通過安裝水冷背門來提高性能,增加功率密度,降低冷卻成本。
為了幫助這些系統以最高效率運作,國家實驗室建議伺服器在機架中安裝盲闆,以防止熱空氣短路。 它還建議仔細檢查風口地闆布置,以確定空氣被引導到需要的地方,并提高資料中心冷水機組溫度設定值。 通過監控系統監測的資料對系統進行及時調整,能源監控系統對資料中心運維很重要。
有些專家認為,即使使用水冷背門時,依然要設計封閉熱通道/冷通道,看起來挺合理的,事實上,對于降低能耗意義不大。使用rdhx可以充分降低伺服器進風溫度,即使不安裝冷通道都可以達到同樣的效果,根據國家實驗室做的測試資料而來。通常,對于大部分正在營運的資料中心,crah單元依舊存在,為高性能計算裝置增加rdhx系統。
安裝rdhx系統後,首先要檢查是否有縫隙。 根據國家實驗室報告說,rdhx水冷門并不總是像機架那樣緊密地配合。 用管道密封櫃門周圍的任何間隙,以提高效率,并測量在安裝換熱器之前和之後的機架進風溫度。 還要監控通過系統的流量,以確定rdhx正常工作,并使液體流速和伺服器溫度相關聯。 確定每個門處的冷卻液溫度高于露點,以防止冷凝,并定期檢查系統是否有洩漏。
結論
對于資料中心發展而言,rdhx可以是資料中心硬體的戰略部分,也可以是較小問題的昂貴解決方案。 在考慮rdhx之前,請仔細考慮自身目前對未來的需求,并了解您通過使用系統達成的目标是什麼,再決定rdhx是否适合您現在或将來的組織。
本文轉自d1net(轉載)