天天看點

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

今天的主題是《雲網絡技術架構的演進之路》,主要介紹阿裡雲網絡産品從無到規模應用的 10 年過程中,雲網絡技術平台洛神是怎麼發展的。

阿裡雲飛天洛神雲網絡平台

阿裡雲系統叫飛天,雲網絡平台稱為洛神,洛神和飛天系統的關系如下圖所示,洛神雲網絡平台是阿裡雲飛天作業系統核心的核心元件和系統服務,伴随着飛天系統一起誕生、成長。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 1 阿裡雲網絡洛神平台與飛天作業系統

整個飛天系統架構分為幾個層次,底層資料中心基礎設施,包含實體資源、機房、伺服器,還有多地域和可用區(AZ)、實體網絡等;其上是飛天作業系統的核心,支撐了整個雲計算的虛拟化,包括計算平台神龍,存儲平台盤古,以及網絡平台洛神;基于系統核心元件,建構了面向使用者的系統服務以及原生服務,支撐不同行業客戶在阿裡雲上建構自己的應用系統。

飛天洛神平台的誕生

洛神伴随飛天系統誕生,是雲計算産業發展的結果,雲計算首先是計算虛拟化,并提供給不同的使用者使用,當使用者在雲上使用計算資源時,網絡位址獨立規劃,不同使用者位址可以相同,且虛拟機可以在不同機房之間遷移,位址保持不變,同時雲計算是一個基礎設施,支援海量使用者同時使用,這些關鍵需求要求提供一個超大規模的虛拟化大二層的網絡。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 2 雲計算租戶網絡應用需求

這些需求,使用傳統商用實體交換機和路由器建構的網絡,無法滿足雲計算的需求,也滿足不了阿裡雲營運這張網絡的需求,主要原因在于:

1)在百萬級别的租戶之下,如果每個租戶都給到一張獨立的位址空間,位址空間的數量非常龐大,傳統交換機裡面使用 VRF 來隔離租戶之間的空間,意味着交換機要支援海量的 VRF 資源,這是目前硬體能力無法支援的。

2)伺服器和虛拟機的數量增長,網絡節點以及路由表的規模快速增大,虛拟機通訊和遷移要求路由表能快速同步。

3)當使用者對雲上網絡層面的功能需求越來越多的時候,比如說使用者在雲上不僅希望有個虛拟機,還可以有個公網 IP;比如說使用者可以自行定義這張網絡 IP、路由和安全組。另外随着 NFV 技術發展,使用者希望在雲上運作虛拟化業務網元,例如負載均衡、NAT 網關、VPN 網絡,要求對應的底層網絡能快速進行功能疊代,以滿足新需求和新技術的快速應用。

4)更關鍵的是,傳統實體交換機是一個黑盒,各個廠商實作各異,接口各不一樣,同時不支援裝置内功能定制開發,讓裝置的運維成為一個難題。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 3 傳統網絡裝置應對雲計算的限制

是以阿裡雲網絡選擇了一條自研的路,使用三大技術滿足雲計算的需求:

1)虛拟化網絡;

2)SDN 技術,軟體來定義網絡;

3)整個技術棧自研。

阿裡雲網絡洛神平台就此誕生。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 4 洛神網絡 10 年演進

洛神雲網絡平台随着阿裡雲飛天系統一起,已經經曆了 10 年演進,分為兩個階段,洛神 1.0 時代,主要定位為支撐超大規模和多租戶的網絡。

随着阿裡雲的業務快速發展,尤其近幾年規模增長特别快,2018 年開始推出洛神 2.0,洛神 2.0 的特點主要在高性能、彈性開放能力。

現在阿裡雲上運作着很多超級規模的使用者,比如阿裡巴巴集團的淘寶業務,這些超大規模使用者對網絡的性能提出了很高的要求,特别是在例如雙 11 這種大型活動期間,網絡流量的峰值是十分巨大的,這對網絡的性能提出了非常高的要求。

同時阿裡雲提供了豐富的基礎 IaaS、 PaaS 産品與服務,第三方的生态夥伴可以在阿裡雲上提供衆多的 SaaS 服務,包括網絡類的 SaaS 服務,例如網絡管理類、網絡資料分析類、網絡日志管理類、網絡轉發類的軟體。這些軟體在阿裡雲上很好的運作,需要網絡提供彈性,開放的能力,就是洛神 2.0 的定位。

飛天洛神 1.0:超大規模、多租戶網絡

洛神 1.0 平台由很多網絡元件組成,架構上主要分成兩類:AVS(Apsara vSwitch)和各種網關網元。AVS 是部署在每個實體伺服器上的軟體網元。最早基于 XEN 的 Kernel 架構實作,轉發性能不高,單機隻有 15 萬 PPS。随後演進到了 KVM 的架構,在這個架構下,vSwitch 還是在 Kernel 的,但已能提供單機 120 萬 PPS 性能。然後在 Intel 推出 DPDK 版本後,AVS 進行了架構更新,使用使用者态 DPDK,轉發性能提升至 600 萬 PPS。

AVS 的演進,是為了追求網絡性能大幅提升的過程,是阿裡雲網絡持續疊代和改造網絡軟體架構的原動力。

關于業務網關,最早也是基于 Kernel 網絡協定開發。例如 Load Balance 裝置,第一代也是基于 Kernel 開發,當時整台實體機性能大約隻有 300 萬 PPS。為了追求更高的性能,這些網元基于 DPDK 進行了重新建構,既包括公網網關、私網網關,還有 SLB、NAT 網關、VPN 網關等等,轉發性能提升了 20 倍。

洛神 1.0,基于 DPDK 的 AVS 和各種網關,最終搭建出一張支援超大規模租戶、超大規模虛拟機的網絡。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 5 洛神 1.0 支援超大規模租戶網絡

如圖所示,在這張超大規模的租戶網絡裡面,我們達到的核心能力包含:

1)多租戶隔離,每個區域可以支援百萬規模的 VPC。如果說一個租戶對應一個 VPC,一個區域就可以支援百萬規模的租戶;

2)單個 VPC 支援超大規模虛拟執行個體,目前有一些超大規模的 VPC 中實際部署并運作了超過 30 萬的 ECS,也就意味着此租戶的這張網絡裡面有 30 萬個以上的 IP, ECS 之間的通訊,包括東西和南北向的流量,都能很好的在虛拟網絡裡面運作。

3)最後就是基于 AVS 能力,單個 ECS 能夠提供百萬級 PPS 能力的轉發性能。

飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡

洛神 1.0 支撐了阿裡雲網絡從無到有,至規模應用,随着阿裡雲的業務不斷增長,租戶越來越多,也帶來了越來越多的 VPC。租戶購買的虛拟機越來越多,也代表着網絡裡的節點越來越多,轉發性能要求越來越高。此外,也有越來越多的租戶在雲上不但僅僅滿足簡單的連通性要求,提出了豐富的業務網元處理訴求。例如使用者原來在自己的資料中心裡面建構了防火牆和 NAT,或者自己買了一些 Load balancer 的裝置,現在業務系統搬到阿裡雲上之後,希望原來的網絡功能繼續在阿裡雲使用。

在此背景下,洛神平台更新到 2.0。如圖所示,洛神 2.0 提供了更加豐富的轉發網元,既有神龍 MOC 卡,還有專用可程式設計晶片以及通用 ECS;同時洛神 2.0 新建構了一個 NFV 平台,支援業務網元不再依賴傳統 X86 伺服器,直接基于 NFV 平台建構,例如 NAT、SLB、VPN 産品,同時 NFV 平台支援開放能力,第三方的網元也可以基于 NFV 平台部署,通過 VPC 内和 VPC 間的通路。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 6 洛神 2.0 架構圖

洛神 2.0 的基礎是阿裡雲遍布全球的網絡基礎設施和 Region 資料中心的基礎設施。目前在全球有 20 個 Region、61 個可用區,100 多個 POP 節點。當國内使用者需要出海或者國外的使用者需要進中國的時候,不再需要自己購買很多實體形态的裝置和網絡連接配接,并花很長的時間搭建出網絡基礎設施。基于洛神 2.0,阿裡雲的網絡産品就可以分鐘内快速建構出營運網絡、基礎設施。

洛神 2.0 的 AVS 和業務網關都進行了架構跨越式更新,AVS 基于軟硬體一體化方式,使用神龍 MOC 卡實作快速轉發,轉發性能提升數倍,達到千萬 PPS。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 7 軟硬體一體的新一代 AVS

洛神 2.0 另一個跨越式架構更新是提供新一代的 NFV 平台,通過網元邏輯部署在通用 ECS 上,提供彈性和開放能力。當第三方廠商将其應用移植到阿裡雲之後,就可以在阿裡雲市場裡對阿裡雲的租戶進行售賣和提供能力,形成了一個非常好的生态:

1)網元可以給大量租戶使用;

2)客戶的白天流量很大,半夜的流量很少時,阿裡雲會自動幫你縮容。

如果說在某個時刻點突然碰到高峰,阿裡雲會自動協助擴容,也就意味着第三方的網元利用洛神 NFV 平台,不僅可以開放部署,還可以享受到自動的彈性。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 8 洛神 2.0 NFV 開放平台架構

飛天洛神的未來

洛神 2.0 中,還有一個齊天智能網絡平台,是未來演進的重要能力,未來的網絡将是一個智能化的網絡。當客戶業務部署在阿裡雲的時候,如果網絡發生波動或故障,需要非常快速的排查問題,因為網絡是屬于最底層的服務,當業務不能對外提供服務的時候,首先會想到網絡問題。這個時候網絡可能是正常的,有可能是上層業務的問題。如何讓上層業務團隊快速定界問題所在,如何讓網絡的管理者能快速自證清白,提升未來生産營運服務的效率,就這是未來智能化網絡需要解決的問題。

阿裡雲祝順民(江鶴):一群阿裡人如何用 10 年自研洛神雲網絡平台?技術架構演進全揭秘!(轉載自CSDN)阿裡雲飛天洛神雲網絡平台飛天洛神平台的誕生飛天洛神 1.0:超大規模、多租戶網絡飛天洛神 2.0:連接配接全球,高性能,彈性開放網絡飛天洛神的未來

圖 9 洛神的未來演進

未來阿裡雲洛神平台的發展方向就是智能化,未來會通過自研網元,采集網絡中資料,并且用大資料的方式去做産品問題分析和資源規劃,目前洛神齊天系統已經建構在一部分能力,在内部使用,未來會提供給阿裡雲的客戶,讓客戶可以智能化的營運自己的網絡基礎設施,這就是阿裡雲洛神平台未來演進的方向。

作者簡介:祝順民(花名江鶴),阿裡雲智能事業群研究員,網絡産品線負責人,在軟體定義網絡(SDN)和網絡功能虛拟化(NFV)領域有多年技術研發和管理經驗。他帶領團隊曆時多年,從無到有,打造了業内最豐富的雲網絡産品線,并鑄造了阿裡雲飛天系統的雲網絡平台-洛神,服務了百萬使用者,并曆經 8 次天貓雙十一考驗,已經成為真正意義上的基礎設施。

繼續閱讀