天天看點

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

機器之心原創

作者:shanshan

盡管新冠病毒仍在世界範圍内大肆傳播,吸引着人們大部分的注意力,但根據政府間氣候變化專門委員會(IPCC)的最新報告,逆轉氣候災難的視窗期正快速關閉,減碳行動依然刻不容緩。

2022 年 4 月 22 日是第 53 個世界地球日,每一年世界地球日都會制定一個相應的行動主題。2022 年的主題是「投資我們的星球(Invest in Our Planet)」,藉由綠色經濟、落實永續商業模式,來建立健康的城市、國家及經濟。

國際科技巨頭在這一領域的投資由來已久,如今已加碼投入。亞馬遜在 2020 年收購了超過 4 吉瓦的共計 35 個風電與光伏電站,成為可再生能源迄今最大買家。谷歌提出将在 2030 年實作全球實時零碳營運,将零碳的統計範圍從年過渡到小時。微軟則提出将于 2030 年實作負碳排放,并且在 2050 年消除企業所有曆史碳排放。

中國網際網路科技企業近幾年也紛紛行動。在 2021 年,包括阿裡、螞蟻、騰訊等多家企業都提出了自己的碳中和目标,基本上都把 2030 年作為實作碳中和的關鍵時間點。就在今年地球日,螞蟻和阿裡先後宣布加入「低碳專利承諾」(Low Carbon Patent Pledge),一家倡導低碳技術專利共享的國際平台,向全球免費開放自己的部分節能減排專利。

事實上,國内不少擁有大規模資料中心的公司在減排方面已經有不少嘗試,主要的手段是硬體改造,即通過更先進的散熱技術來降低資料中心能耗,譬如各種水冷、液冷方案,統稱為降低 PUE,這種做法在全球範圍内已經探索多年,谷歌的 PUE 如今非常接近于 1,節省了大量成本;但硬體改造耗時長,運維成本高,且收益相對有限,因為資料中心的電力消耗主要在伺服器上,隻要伺服器使用率低,就意味着浪費。這一部分的浪費遠超 PUE,根據 Gartner 調研,全球資料中心伺服器 CPU 使用率隻有 6%~12%。

如今國内企業站在後發者的位置發展綠色計算,正是着眼未來,布局更有持續性前景技術的好時機。本文以螞蟻為例,解讀如何在保證較低的 PUE 之外,聚焦于能夠提高已有算力使用率的技術,走一條更高穩定、前景更廣闊的「綠色計算」道路。這套綠色計算技術項目成果也獲得了信通院 2021 年度的雲原生技術創新解決方案獎。

立足「可信原生」,綠色計算技術之路「難而正确」

大資料時代,資料正在成為國民經濟發展的新動力。據 IDC 測算,預計到 2025 年,中國産生的資料總量将達 48.6ZB(澤位元組,代表的是 10 萬億億位元組),占全球 27.8%,對 GDP 增長的貢獻率将達年均 1.5% 至 1.8%。

然而,要讓資料潛力得到真正的釋放,則需要強大的算力體系支撐。資料中心作為海量資料加工和處理的特定裝置網絡,其正常運作過程中需要消耗大量電力資源。中國資訊通信研究院資料顯示,2020年全國資料中心耗電量約760億千瓦時,占全社會總耗電量(75110億千瓦時)的1%。折算為二氧化碳排放量,2020年全國資料中心二氧化碳排放量近4000萬噸。

在節能減碳上,國内網際網路科技企業建設綠色資料中心的路徑大緻相似,主要是通過對散熱、冷卻系統和伺服器性能優化,降低電能利用效率(PUE)。PUE 是綠色資料中心的重要評價名額之一,理論極限為 1,數值越接近 1 表明能效水準越好。

「我們注意到,單純通過降低 PUE 進行節能減排,目前已經遇到了一些挑戰。PUE 技術早已經是低垂的果子,被摘得差不多了,決定綠色資料中心的關鍵技術十年前是 PUE,3~5 年前已經不再是了。」螞蟻集團進階技術專家武鵬向機器之心解釋道:

「十年前,整個行業的水準是在 1.8-1.5;十年後的今天,這個數值已經降到了 1.3 左右,部分優秀的公司可以降到 1.1 以下。但是,從 1.1 繼續下降到 1 的過程中,就會出現一些非線性的額外的投入,以及一些技術方面的其他風險。」

這也意味着,對于科技企業來說,僅僅依靠節能技術将不足以應對零碳挑戰。

「過去十年,整個行業持續向着大型化、智能化、高能效技術疊代。螞蟻早在幾年前就着手從自身的技術優勢入手,瞄準在低碳的前提下進一步提升能源利用效率以及機關能源的業務效率,這一系列技術的結合就是螞蟻的綠色計算技術體系。」

據了解,在綠色計算技術能力的支援下,2021 年螞蟻集團的全機房日平均使用率已經達到 2019 年的 2 倍,混部叢集的使用率超過 40%,追上 Facebook(現 Meta)等國際領先公司的水準。

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

綠色計算技術架構。

螞蟻開始研發「綠色計算」技術的時間點是在 2019 年,早于碳中和目标的提出,可以了解是科技公司發展到一定規模後的内部需求所驅動。目前這套技術已經可以解決大規模叢集資源合理配置設定、分鐘級有效排程、智能流量預測等行業關鍵難題,相關能力來自可信原生、技術風險、原生分布式資料庫 OceanBase、智能引擎等多個技術團隊。

「可信原生是一種大規模的基礎設施技術,是綠色計算的底層技術。」螞蟻集團進階技術專家楊統凱向機器之心介紹。

可信原生是螞蟻集團源于對下一代金融基礎設施的訴求而提出的理念,開發者可用以構築更加穩定安全,高效易用的大規模技術基礎設施,來滿足泛金融行業嚴格的業務需求。具體到綠色計算方面,可信原生的三大核心技術,是「在離線混合部署技術」、「雲原生分時排程技術」以及「AI 彈性容量技術」。

「在離線混合部署技術」,即對計算資源進行離線混合部署。傳統的市場做法是把線上任務和離線任務分開部署在不同的叢集以避免可能的沖突,但是兩個叢集互相隔離将使得大量叢集算力處于閑置狀态,整個叢集的運算效率低下。

「混合部署的難點在于技術本身,如何保證線上業務和離線業務能夠互不幹擾,平穩安全地運作在一個實體機上,這是業界公認的一個難點。」楊統凱表示。

螞蟻集團的解題路徑是在業界首次使用 Kata 安全容器的強隔離技術,将離線任務混合部署于線上服務所在的伺服器之上。在強隔離技術保障下,即使單機 CPU 使用率達到 80% 以上,螞蟻的線上服務也不會受到離線任務混部的影響,能在其服務名額要求内穩定運作。

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

安全容器混部隔離技術。

「雲原生分時排程技術」,即根據具體場景負載特征,通過排程編排錯峰複用計算資源。螞蟻集團具備超過百萬算力的線上業務,這些線上業務具備不同的業務場景,是以對資源的使用時間跨度上存在差異,如時間次元上的周期性。分時排程就是利用業務使用資源的時間特性,将一份資源在不同的時間段提供給不同的應用使用,可以極大提高資源效率。

「通過這個技術螞蟻可以很好的把不同峰值的線上業務編排在一起。我們現在可以實作更精細化的、小時級别的資源編排,相當于一台機器可以做成 24 份資源,有效提升整台實體機的使用效率,減少資源投入。」楊統凱介紹。

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

雲原生分時排程技術。

「AI 彈性容量技術」,即結合人工智能來動态預測應用的容量。螞蟻的業務特性有非常高的穩定性要求,像雙 11 等活動場景,以往為了應對流量高峰,主要依靠人工判斷,不停增加伺服器進行保障。但是人工判斷存在難度大與滞後性等問題,對此螞蟻研發了 AI 智能容量技術,利用大資料和人工智能技術,建設了圖計算的流量周期算法,通過深度學習來預測流量,進而實作智能的擴容和縮容。

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

AI 彈性容量技術。

目前螞蟻的可信原生技術主要通過開源的方式對外開放,同時通過其他産品開發,比如使用SOFA技術的相關商業化産品,取得了一定的商業化實踐檢驗。

以上技術隻是可信原生在綠色計算中的應用。作為一整套基礎設施技術,它包括了雲原生、安全容器、機密計算、可信硬體、小程式運作時等。從長期主義的角度來說,減碳技術和基礎設施是非常契合的,這也是為什麼提高資源使用率是螞蟻可信原生技術的關鍵目标之一。

過去幾年,雲原生在大規模叢集系統架構領域獨領風騷。從系統架構角度看,雲原生是一個面向運維(SRE)的架構,其核心使命是保障系統的穩定性,當安全和穩定性與效能産生沖突時,面向運維的架構會讓安全性更容易被折衷,而作為平台使用者的應用開發,在大部分情況下也不想插手安全可信的工作。

但最近一兩年,技術趨勢發生了一定變化。随着各國在隐私與資料安全保護方面的制度逐漸健全,不僅基礎設施架構需要加強安全可信,更需要對應用進行保護,通過多個不同的系統層面進行安全切面的檢測、防護和阻斷,甚至要有更強的規約,拒絕不符合安全規則的應用進入軟體供應鍊。

正是基于這樣的趨勢判斷和技術理念,螞蟻投入到可信原生這種大規模基礎設施技術的研發中,并進行了廣泛實踐,比如組建安全計算團隊來探索機密計算技術,加強系統對侵入的防護能力,同時讓系統不能窺探上層的應用在做什麼,這種有效的強保護對敏感的金融應用來說是提升資源使用率的必需品。

在螞蟻的綠色計算技術體系裡,除了可信原生,同樣值得關注的還有 OceanBase。這兩年國産自研資料庫火熱,OceanBase 也是其中的知名例子,連續兩年重新整理了事務處理任務(TPC-C)基準測試世界紀錄。

從技術原理角度看,OceanBase 主要從以下三方面做到減碳排放:

一是基于 LSM-Tree 的進階壓縮技術,可以大幅降低存儲成本,例如支付寶某業務從 Oracle 遷移到 OceanBase,資料由 100TB 壓縮到 33TB;

二是多次提速的分布式事務處理機制,OceanBase 将 Paxos 分布式一緻性協定引入兩階段送出(2PC)技術中,使分布式事務具有自動容錯能力;

三是 SQL 執行引擎優化技術,通過執行計劃緩存(Plan Cache)、快速 SQL 參數化、算子下壓和過濾、向量化引擎等技術大大降低 SQL 執行時間。

把資料中心放到北極圈,也許都沒這條綠色計算之路收益高

OceanBase 資料遷移解決方案。

領先的資料庫技術天然是減碳的得力支援,各家國内廠商在這方面的投入,相信陸續都會見到回報。

開放生态,行業受益

綠色低碳的未來是人類共同的追求,也是當下全球共同的難題,需要的不隻是幾家公司的領先,而是整個行業、社會的協作。前些年,主要是國外的企業開放自己的技術,國内的同行學習,比如 Facebook在 2011 年建立的開放計算項目,微軟、谷歌都參與在内,開源了自己的資料中心解決方案,幫助降低成本。而這兩年,随着自研技術的發展,國内領先的公司也在對外開放自己的成果和實踐,以回饋行業。

就螞蟻的例子來說,一方面是把已經做得紮實的基礎技術,比如涉及到作業系統、資料庫、雲原生底層元件的部分,用開源的方式開放;另一方面對一些不屬于工程軟體的部分,比如智能算法,則通過學術論文,去和同行共享方法論。這也是谷歌等領先公司的做法。

螞蟻集團資深技術專家、Kata 聯合發起人王旭在采訪中表示:“螞蟻在綠色計算上的研發和探索一直保持開放,希望我們的一些探索性工作能幫助到整個行業。現在我們有一些領先性的技術,比如 Kata Containers 是開放基礎設施基金會的頂級項目,也是這個領域的開源事實标準,我們一直在不斷把我們的實踐回饋給開源社群;另外包括螞蟻的 Kubernetes 叢集,是全球規模最大的生産叢集之一,這方面的實踐也在回報給社群;在可信領域,我們給機密計算聯盟捐贈了 Occlum LibOS,這是他們接收的第一個來自中國的項目;此外還有金融級分布式中間件 SOFAStack,包含了建構金融級雲原生架構所需的各個元件。截止目前,螞蟻在雲原生、資料庫、前端等核心領域開源了近 800 個倉庫,成長出近 20 個世界頂級開源社群項目。這些是我們作為技術人為行業能做出的一點貢獻,未來我們還會更加開放。”

曆次技術革命都是一種創造性的回應,帶動人類社會的發展。自 2020 年大陸提出碳中和目标後,「雙碳」連續兩年被寫入政府工作報告。2021 年,工信部印發《新型資料中心發展三年行動計劃》,明确提出要大力推動技術先進、綠色低碳、算力規模與數字經濟增長相适應的新型資料中心發展格局。面向社會數字化轉型時代,「綠色計算」的内涵越來越豐富,從硬體逐漸擴充到軟硬結合,技術也在推陳出新,尋找更面向未來的方向。對于科技企業而言,如何更主動地通過技術解決節能減碳問題,以回應人民對于美好生活的期待,這是挑戰,更是機遇。

繼續閱讀