天天看點

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

磐久網絡|揭秘阿裡雲HAIL資料中心網絡
HAIL 是阿裡雲資料中心網絡架構的代号,取自 High Availability(高可用),Intelligence(智能化),and Low Latency(低延時),代表着阿裡雲建構資料中心網絡的理念。本文帶大家探秘阿裡雲 HAIL 資料中心網絡,一起展望資料中心網絡的未來。

雲計算資料中心的發展

雲計算資料中心是雲計算的算力載體,今天所有的雲計算服務都在資料中心這樣一個“超級電腦”中進行着快速運算,并通過網際網路将服務快速觸達全球使用者和各行各業。雲計算資料中心大緻上可與一台電腦進行類比,包含 CPU、GPU、存儲、互聯,以及供電和制冷系統。如果你想了解資料中心網絡,拆開電腦機框,主機闆上那一條條連接配接着各種部件的金屬走線所發揮的作用,就是資料中心這個“超級電腦”中網絡在做的工作。當然,資料中心網絡系統遠比一台電腦的内部互聯複雜得多。

資料中心誕生之前,網絡主要用于全球互聯,以及企業内部的組網互通,俗稱公網和内網。初期的資料中心基于服務傳統企業網的技術進行建構,逐漸發展成為一個獨立的場景。網際網路和雲計算公司為了向公衆提供網際網路服務(如媒體資訊、通信交流、搜尋查閱、網上購物等),需要自身具備服務全國甚至全球使用者的計算、存儲和網絡互聯能力,這要求後端技術平台能夠處理高并發的請求,内部系統則要對資料進行快速的存儲、計算、搜尋,再經由網際網路絡将結果輸出給使用者。這種模型對網際網路和雲計算的集中化算力能力提出了更高的要求,資料中心的場景也随之誕生。

初期的資料中心網絡采用企業級的網絡裝置進行資料中心組網,如 VPC、堆疊,大的二層域和 OSPF 路由協定等。這些網絡技術在較小的組網規模條件下并不會出現太大的問題,但伴随着網際網路資料中心的算力規模越來越大,企業級的資料中心網絡技術就面臨着性能、穩定性、大規模營運等方面的挑戰。

阿裡雲 HAIL 全自研資料中心網絡

阿裡巴巴從 2013 年進入标準化資料中心網絡架構階段,開始基于商用裝置進行資料中心網絡的标準化建構,并從互聯拓撲、互聯協定層面進行改善,逐漸采用标準通用的适合資料中心組網的技術選型。

自 2017 年,阿裡雲進入分布式大規模資料中心網絡階段,取名 HAIL 架構,用“Highly Availability,Intelligence,and Low-latency”描述資料中心網絡的核心理念。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | HAIL:Highly Availability,Intelligence,and Low-latency

同一時期,為了進一步自主掌控資料中心網絡技術棧,為産品打造更高效穩定的網絡基礎設施,阿裡雲開始了全自研體系的設計和研發。HAIL DC5.2 是第一代采用全自研交換機和光互聯的資料中心網絡架構,通過單晶片自研盒式裝置來建構多平面 scale out(橫向可擴充)的分布式資料中心網絡。

  • 單晶片的架構設計極大地簡化了網絡裝置軟硬體複雜度,讓研發工作專注在阿裡雲 HAIL 資料中心網絡架構中使用的功能,考慮整網系統的穩定性,而不必開發陷入複雜但效用不高的多晶片軟硬體功能。
  • 多年積累的網絡運維沉澱和自動化平台能力,使得資料中心網絡系統具備了實作分布式大規模傳遞運維的條件,大規模網絡裝置的傳遞運維監控自動化,從經驗積累逐漸轉變成 NET 系統平台(阿裡雲網絡傳遞運維自動化的監管控平台)的能力。
  • 全自研的軟硬體裝置會與後端的監控管控自動化作為一個整體進行設計和研發,使得網絡裝置與監管控系統的關聯更加順暢,實作了高精度、高實時性的網絡性能監控,快速發現問題并自動化響應,資料中心自研系統成為一個整體,而不單單是自研的網絡裝置。
磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 阿裡雲全自研資料中心網絡

自 2019 年,阿裡雲建立資料中心就全面采用了基于 AliNOS (阿裡雲自研網絡作業系統)的自研交換機,如上圖,包括園區核心、叢集核心、POD 核心、接入 TOR,以及基于 P4 可程式設計的網關裝置 SNA。

  • 多平面互聯使得網絡叢集規模靈活彈性,三層 CLOS 即可實作從幾千的小叢集到十幾萬台伺服器接入的超大叢集;
  • Scale out 使得備援度更高,單台裝置損失對整體資料中心幾乎無感覺;
  • High-radix 單晶片裝置使得轉發跳數更少的情況下仍可以做到足夠的規模,将資料中心内部的轉發時延壓縮到極緻;
  • 兩款裝置即覆寫了資料中心 cluster 的所有互聯場景,極大降低了供應和運維的邊際成本;
  • 阿裡去堆疊雙上聯徹底消除了堆疊系統帶來的穩定性隐患,使得資料中心網絡的穩定性提升了一個數量級,還同時解決了接入裝置無法軟體更新的問題,尤其在通過發揮自研網絡快速疊代功能實作業務創新的背景下,網絡團隊在裝置更新上掌控主動權顯得尤其重要,有助于提升資料中心網絡的運維可持續性。

資料中心網絡的技術趨勢展望

一般而言,雲計算資料中心分為兩種類型的網絡服務,一種是面向使用者的網絡服務,即通過網際網路,或通過多資料中心互聯進行資料搬移、通路請求的網絡能力;另一種是對外部不可見的網絡能力,即内部 IO 互聯,如大資料處理、分布式存儲等。我們在談論資料中心網絡能力時,更多是在讨論後者,即 DC as a computer 這個“超級電腦”的内部 IO 互聯(傳統意義上也叫做東西向流量)。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 資料中心網絡

近年來,随着計算、存儲、網絡技術的不斷發展,資料中心網絡不但要求“穩定的連通性”和“足夠的帶寬”,而且對“低延遲時間”和“可預期網絡結果”的訴求也越來越明顯。

  • 高性能計算曆來對網絡時延有苛刻的要求,簡單的帶寬堆砌并不能滿足要求;
  • 大資料場景,尤其是人工智能場景的機器學習(特别是深度學習)場景催生了 AI 革命的到來,訓練推理算力成為各大科技公司的必備基礎設施,這要求網絡的“帶寬+時延”均衡能力,以盡可能短的時間來完成大量資料的分發與聚合;
  • 雲計算分布式存儲,本質上是“計算存儲資源分離 + 本地存儲性能要求”,随着存儲媒體性能的更新,對網絡時延越來越敏感,要求不但是“低延遲時間”,在使用者體驗上“穩定可預期的 IO”尤為關鍵。

池化也是一個核心趨勢。池化的概念很廣,對雲計算資料中心而言,池化是永恒的主題,但不同階段池化的均衡點有所不同。

  • 廣義上,雲計算本身就是算力的池化,對社會提供共享、低成本、簡單易用的算力,是以計算存儲網絡能力的建構都是以“實作大池的同時又向使用者提供獨享的計算存儲網絡空間”作為目标。
  • 狹義上,池化指的是計算、存儲在更小模型尺度上的池化,比如将異構算力做成大池的同時如何做到給使用者以獨享性能級别的算力呈現,比如将存儲做成大池的同時如何給使用者以獨享本地存儲級别的 IO 性能,其核心挑戰是大規模池化後的系統性能如何随着規模線性增長,這其中網絡作為系統 IO 是核心決定因素。
磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 異構算力的池化

新的計算模型,以容器為基礎的雲原生技術以應用為中心,圍繞應用來建構彈性、簡單複制、高效運維的基礎設施能力,對網絡的要求是“彈性”和“密度”,這看似對網絡的依賴不是很明顯,實際上雲原生的形态要求雲基礎設施呈現為更廣義的池化形态,使得雲原生的計算、存儲、網絡、資料庫等系統可以屏蔽對底層基礎設施的功能感覺,這也越來越要求網絡與容器的融合能力提升,雲原生的網絡解除安裝加速會成為未來資料中心網絡的基礎能力。

從“大規模算力互聯”角度來看資料中心網絡未來的發展趨勢:

實體網絡晶片吞吐性能進一步提升

網絡晶片的摩爾演進将進一步提升吞吐性能,這并不單單是通用計算的網絡需求曲線延續(實際上通用計算對網絡增長的需求在放緩,而異構計算仍需求強烈),還包括網絡自身降低機關吞吐成本的目标。在這個過程中會遇到晶片技術、供應生态、成本等方面的挑戰,業界會形成新的應對方式。

低延遲時間轉發

低延遲時間轉發會是高性能計算、AI、存儲和資料庫等池化場景的競争力核心,這需要端到端網絡的全棧創新,從協定到流控再到網絡轉發。高性能計算、AI 相對特殊,需要有獨立的拓撲設計乃至于特定的轉發晶片,這種低延遲時間轉發不是一個絕大多數場景的趨勢和訴求,但這方面的創新會引領帶動其他通用場景的技術演進,發揮“特定場景創新傳導給通用場景”的創新效應。

可預期網絡

技術發展是一個螺旋上升的過程,資料中心技術趨勢會催生網絡技術的變革。阿裡雲很早就預見到了這些技術趨勢,并于 2019 年提出了“可預期網絡”的未來網絡發展方向,近年來也在基于可預期網絡建構整個資料中心體系。

以太網最初以“best-effort”這種簡單粗暴的方式脫穎而出成為主流,将流控、丢包處理等工作交給靈活的端側軟體,通過端到端的機制來實作,以太網自己則專注于轉發,這使得以太網轉發能力一騎絕塵,從全局來看這是一種“最經濟”的分工模式。

然而,随着資料中心技術趨勢越來越明顯,以太網的“盡力而為”将會成為一些場景下的短闆,如何基于以太網實作“可預期”的網絡服務,是網絡發展的關鍵命題。可預期網絡意味着應用對于網絡的行為結果有相對可控的預期,并基于這個預期來設計應用系統,這會讓應用架構更簡單。

就好比交通出行,對于中長途旅行,選擇飛機雖時間短但存在較大延誤風險,選擇汽車可有大緻可控的範圍但旅途時間長,而高鐵是準時發車準時抵達,時間相對短且誤差最小,不必擔心因為行程耽誤某個重要會議,這使得整個社會在時間效率上可以做到更好。

可預期網絡的理念即是如此,讓應用更簡單,效率更高。可預期網絡,首先要做的是實作技術棧的自主掌控。阿裡雲已經實作了基于自研的網卡、交換機、光互聯來建構自主掌控的資料中心網絡,這使得底層網絡變得穩定可控。剛剛過去的雲栖大會上,阿裡雲釋出了多項可預期網絡新品,其中的關鍵因素是技術棧的自主掌控。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 阿裡巴巴網絡自研全景圖

阿裡雲提出協同設計(下圖)的架構理念來實作端到端的可預期網絡。對雲計算系統而言,網絡是整體系統設計中的一環,基于協同設計的理念,我們通過網絡與應用的協同設計、端側網絡與交換網絡的協同設計、網絡架構創新更新三個方面來實作可預期網絡,近年來阿裡雲基礎設施網絡團隊已經在這三個方面已經取得了很多研究研發成果,大部分技術也已經實作了規模部署。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 端網協同的系統架構與成果

可預期網絡将是一個系統工程,從網絡實體元素的軟硬體全自研,到針對産品技術棧優化的高性能協定和流控,從端到端的網絡系統設計再到基于可程式設計晶片的硬體加速,最後由網絡後端監管控系統來支撐整體網絡的智能化運維,這些能力融合在一起,形成了一個完整的可預期資料中心網絡體系。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

圖 | 阿裡雲高性能可預期資料中心網絡體系

阿裡雲資料中心網絡将在可預期網絡方向上持續投入研究和研發力量,以實作更多的硬核創新,緻力于為雲計算提供可預期的網絡服務,讓應用更簡單。同時阿裡雲也将持續貢獻社群,引領開放标準,繼續與業界同仁一起共建開放繁榮的網絡生态。

磐久網絡|揭秘阿裡雲HAIL資料中心網絡

繼續閱讀