天天看點

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

雲栖号資訊:【 點選檢視更多行業資訊

在這裡您可以找到不同行業的第一手的上雲資訊,還在等什麼,快來!

導語:在雲網絡風靡的今天,洛神雲網絡作為阿裡雲飛天的虛拟網絡系統核心,目前在軟硬一體、NFV平台創新以及智能性方面究竟有何新意?對使用者與開發者的影響作用如何?更多了解雲網絡涉及的技術細節,或許這篇文章可以幫助你!

洛神,乃中國先秦神話中司掌洛河的地方水神,無上尊崇。

取同名,洛神雲網絡平台,作為阿裡雲飛天作業系統的三大核心之一,至關重要。

與神龍、盤古齊名,基于網絡虛拟化技術,洛神雲網絡平台通過對超大規模租戶、超大規模虛拟機的高性能雲網絡支撐,達成了借古時河運的四通八達隐喻雲上網絡連通萬事萬物,異曲同工。

掐指一算,洛神雲網絡平台伴随飛天演進已有十年之久,其網絡産品的推進時間與企業上雲的時間大緻無異。

最初隻是提供一些AVS、SLB等單執行個體,但伴随基礎上雲之後雲上雲下相結合的高速通道、專線以及智能接入網關等迫切需求,系統不斷演進,以後的技術更新大部分基于雲上架構需求以及使用者業務支撐等因素。

這一點就像,最初在1.0時代,洛神雲網絡平台的職責僅僅是高效支撐超大規模以及多租戶網絡,可以被稱為從無到有。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

但随着雲上業務的快速增長,2.0更新版的洛神雲網絡平台也同時邁向更高性能、更大彈性、越發智能化的存在。

例如針對VPC的基礎元件做了全鍊路的軟硬一體化設計;通過硬體化讓vSwitch的性能對比軟轉發提升了10倍以上,大幅降低延遲。

開放彈性的雲網絡NFV平台,加強通用的資源池化、彈性擴縮容、故障隔離、服務鍊編排等通用管控能力并帶來友好生态等。

是以洛神雲網絡的技術關鍵詞,即性能、彈性與智能,不但是其創新疊代的主要内容,也是未來該平台技術演進的終極方向。

軟硬兼收,轉發性能高達千萬PPS

談及洛神雲網絡的技術架構,可以被認為由三部分組成, 分别是資料平面,控制平面和管理平面。

其中資料平面主要負責雲網絡中資料包的處理,簡單說就是幫助資料包以高頻率低延遲的方式從發送端口到目的地。

可想而知,資料平面必然包含很多不同角色的元件,用來支撐不同種類的虛拟化交換機以及混合雲網關等。

量子位獲悉,為了提高這些元件的轉發性能,平台不僅使用了軟轉發,還對軟硬體一體化甚至純硬體的技術更新做了深入研究。

洛神雲網絡平台的2.0更新版就是如此。

其實雲網絡的發展才是這幾年的事兒,無論是業務還是需求都在飛速變化中,因為标準的缺乏,按需定制成為主流。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

深入到技術層面,目前雲網絡的各種業務轉發差不多都是基于CPU做軟轉發。

但其中卻有一些不可規避的問題,比方說由于CPU的單core性能瓶頸,在大流量以及攻擊場景下十分容易被打爆,進而導緻故障。

此外由于摩爾定律逐漸失效的現實情況,CPU在頻率以及核數提升方面的空間一直被壓縮,如果僅僅依靠CPU來完成進一步的性能提升難度較大。

對此很多相關技術從業者都比較困惑。

是以為了提升雲網絡的性能與穩定,并同時滿足業務需求,洛神雲網絡平台2.0更新版就對資料平面的VPC基礎元件做了全鍊路的軟硬一體化設計。

其中包括Gateway以超大流量+百萬表項為目标,vSwitch以超大表項+百Gbps為目标等。

在追求性能極緻的實踐中,阿裡雲智能網絡産品進階技術專家雲州透露,将軟體靈活性與硬體的性能特點相結合才會更加容易獲得網絡的高成本效益。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

此外由于洛神雲網絡平台本身由很多網絡裝置組成,在架構上可以分為虛拟交換機AVS與各種網關裝置兩類。

其中AVS主要負責ECS的虛拟網絡接入,而網關裝置則主要提供了豐富的網絡功能與服務。

更新中,AVS和基礎網關裝置都已成功實作了硬體加速,使轉發性能顯著提升,單核問題和水位問題不複存在。

值得提及的一點,AVS 基于軟硬體一體化方式,使用神龍架構實作快速轉發,轉發性能相比之前提升數倍,已經達到千萬 PPS。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

更重要的是,由于平台的資料面深入包含了軟硬體結合的轉發技術和架構,這就意味着網絡不會因為維護而中斷,所有元件都果斷支援熱更新。

當然除了更低成本與更高性能的具體驅動外,雲州表示,軟硬結合的技術更新會在後續的網絡架構疊代過程中進一步提升系統發展速度。

做到更迅速基于虛拟化的方式,在全球範圍内為使用者搭建更多虛拟網雲,使用者使用起來也會更加順暢。

正如洛神雲網絡平台所做的“既硬又軟”的技術嘗試,随着雲計算承載的業務規模越發龐大,軟硬體的結合早已成為剛需,不單單局限在雲網絡技術中。

可以肯定的一點,軟硬結合除了在本身性能上帶來提升外,更重要的是伴随發展,可以幫助雲計算的開發者與使用者更好提升資源使用率,獲得更具成本效益的服務,例如更大帶寬、更低延時與更加可靠的網絡連接配接等,何樂而不為?

100G+轉發/彈性伸縮,智創NFV平台來一套

除了“硬體福利+軟體靈活”的高效利用外,洛神雲網絡平台2.0還在轉發網元方面有了更加豐富的貢獻,其中既包括神龍雲伺服器架構,還有專用可程式設計晶片以及通用 ECS等。

總體來看,系統的彈性更新主要聚焦在架構的控制平面上。

作為平台的業務大腦,控制平面是一個層次性鮮明的分布式控制系統,除了最底層的裝置控制器用來控制各種元件之外,在每個區域還有一個虛拟網絡控制器實作區域内的雲網絡排程。

而基于虛拟網絡控制器和全局路由控制器之上的則是NFV控制器,用來完成虛拟網絡進階功能等。

據悉,目前為止大部分的網關網源類産品主要還是用X86軟轉發,但洛神雲網絡平台2.0則是通過創新建構了一個NFV平台,讓支援業務的網元不再單獨依賴傳統X86伺服器。

畢竟基于x86實體機軟轉發架構會出現單核性能瓶頸、實體機擴容周期長,彈性不足,無法按需擴縮容等諸多問題。

我們可以将此了解為,擁抱雲原生,将網元邏輯部署在通用的ECS上,以此提供彈性與開放能力,更好彌補硬體靈活性不足。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

據悉,結合ECS的彈性和NFV架構的水準伸縮能力,能分鐘級傳遞單客戶100G+的轉發,提升效果顯著。

或許你可能了解,NFV平台的定位就是建構通用、靈活的平台能力,由NFV轉發和NFV管控兩部分組成。

主要包括虛拟網絡的排程能力和NFV資源池的抽象管理能力,進而降低業務網元NFV化的門檻和成本,提高産品能效。

除了可以做到基于ECS建構資源池,提供分鐘級傳遞和彈性伸縮能力之外,還支援多租戶模式,提供通用的負載均衡、故障隔離等基礎能力。

此外,适配網絡功能的服務鍊編排,将網絡産品和安全産品串接成解決方案,并同時支援第三方生态接入。

據了解,作為洛神雲網絡平台2.0的重要一部分,目前PrivateLink、NAT、SLB等網元産品已經演進到了新一代NFV架構,後續也會有更多産品基于NFV架構進行建構和演進。

的确,網絡功能虛拟化 (NFV)确實可以幫助企業降低裝置與運維的消耗。

原理在于将一系列的網絡功能打包成單獨的動作,由于部署在最外層根本不需擔心其對新功能的影響。

以阿裡雲為例,通過NFV平台,第三方廠商可以将其應用移到該雲上,和雲服務商自建網元一樣擷取彈性和排程能力,形成一個非常好的生态系統,豐富雲上使用者以及開發者的選擇。

但在使用過程中針對網絡功能處理性能下降、網絡流量資料隐私暴露、軟體攻擊面擴大等問題解決起來仍很棘手。

未來,為了讓NFV平台達到實際網絡環境的性能需求,其性能優化仍很關鍵,主要包括VNF運作環境性能優化和VNF處理性能優化兩個部分。

當然其中還涉及到負載均衡和狀态管理、資源配置設定和排程政策等很多層面的創新疊代,發展的空間比較大。

VTrace彙集百萬VFD日志,智能管理如此簡單

或許你已經留意到,洛神雲網絡平台2.0中,其實還有一個智能網絡分析系統。

換句話講,超大規模的洛神雲網絡平台,确實在營運、持續更新、創新疊代等方面需要一個系統加以把控。

作為網絡運維和營運的中樞,它管理着海量的網元以及使用者,比方說千萬級虛拟機和百萬級網元。

例如,怎樣從網絡全局看實際的營運狀态?

當使用者業務部署在阿裡雲上時,如果網絡發生波動或者故障,如何快速排查并發現?

為了能夠做到這些,管理平台主要基于大資料以及機器學習技術,對網絡中産生的海量資料進行了實時/離線計算,資料模組化等工作,來驅動網絡資源的提前規劃,系統的日常維護以及産品的智能營運等。

以營運的核心生産資料為例,資料能夠高效利用其實并不簡單。

首先資料來源多樣,内在還包括海量、異構以及高性能計算等諸多問題;其次資料與營運場景的結合也是個難點,例如怎樣把網絡維護好?怎樣把網絡産品管理好?怎樣把網絡使用者服務好?

此外對于使用者來說,在使用具體的網絡服務時,資源優化與控制開銷等細節,也需要相應的資料名額加以衡量指導,次元的複雜性可想而知。"智能運維首先要找清楚你所解決的問題和場景,因為問題和場景很重要。"

據量子位了解,其實在過去的幾年中,洛神雲網絡平台在網絡運維和異常分析上投入了很多精力,涉及綜合建立多種網絡故障模式以及後續快速恢複等諸多方向,為滿足該領域的業務需求以及開發者指導做了不少功課。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

畢竟整體的智能運維涉及到的功能技術繁多複雜,未來包括流量預測,算法與體系相融合等都會成為亟待突破的要點。

談及不久之前“SIGCOMM 2020 公布了今年的入選論文,洛神雲網絡的 “VTrace: Automatic Diagnostic System for Persistent Packet Loss in Cloud-Scale Overlay Network” 作為國内曆年來唯一一篇雲網絡方向的入選論文”的新聞,雲州透露說,之是以入選,是因為用特殊的方式解決了雲網絡業界困擾已久的問題。

就像在現實生活中,駕車擁堵會造成預定的事情被錯過;同樣在雲網絡的世界,當某個裝置出現阻塞或者事故,也一樣會給使用中的APP帶來卡頓甚至異常。

如今雲網絡拓撲日益複雜,承載的業務需求不斷增多,往往要求頻繁更新來滿足使用者的業務變化。

該過程中,哪怕實體網絡在轉發政策中出現任何一個小問題都可能導緻使用者在雲網絡中的資料包丢失。

而傳統工具,例如 traceroute等,無法在雲網絡中使用;反之,人為抓包的方式又呈現效率極低,排查過程相對繁瑣耗時。

基于此,無論對于使用者還是雲網絡供應商來說,都急需一個可以在高負載、複雜拓撲的雲網絡下能夠實作快速響應、自動化的丢包問題排查工具。

換句話說,雲網絡需要一個疏導交通的“信号燈”。

而 VTrace 作為一款解決雲網絡持續性丢包問題的自動化診斷系統,也就合理充當了這樣的角色。

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

不但能夠基于資料丢包的使用者現場進行分析,還在具體部署和使用中不影響正常的網絡功能,亦能夠做到支援不同使用者的并發使用需求等。

舉個例子來說,在“如何解決多網元節點的資料采集和彙聚”的問題時,采集層面上,VTrace使用了成熟的日志服務産品(SLS),無需開發就能快捷完成日志資料采集、消費等功能。

透過強大的采集能力,将數百萬的 VFD(虛拟轉發裝置)日志彙聚到各地域中心,便于後續的分析處理。

在解決分布式資料采集的時序問題時,VTraceApp 和 Jstorm 之間通過設計一個三次握手過程,建立了“任務-染色-轉發-采集-分析”的體系,保障大量分布式資料采集的正确性和時效性,有效解決“日志分散各地、時序無法保障”的問題,這一點對于開發者成功實踐以及使用者體驗上都會有很積極的導向。

一路走來,平台從經典網絡階段的公網帶寬進入VPC階段,再到解決如何更好管理超大規模網絡的問題,将雲企業網和雲連接配接網作為當下平台的兩個主要特性。

如今,通過虛拟化的技術方式更好地作用在超大的實際環境中,性能的持續優化、NFV平台的彈性能力更新,包括以部署便捷為代表的智能化延展等工作都在火熱進行中。

畢竟這些都是未來洛神雲網絡平台發展的終極目标着眼點,為的就是讓使用者更多關心網絡暢通,而不是具體元件的性能,化繁為簡就是這個道理。

附:采訪嘉賓簡介

阿裡洛神雲網絡這局妥了!集齊“軟硬結合、創新NFV、智能管理”三張牌

【雲栖号線上課堂】每天都有産品技術專家分享!

課程位址:

https://yqh.aliyun.com/live

立即加入社群,與專家面對面,及時了解課程最新動态!

【雲栖号線上課堂 社群】

https://c.tb.cn/F3.Z8gvnK

原文釋出時間:2020-06-25

本文作者:晶少

本文來自:“

量子位公衆号

”,了解相關資訊可以關注“公衆号 QbitAI”

繼續閱讀