天天看點

網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”

摘要:網絡領域在IT技術裡一直是複雜的,而網絡故障發生頻率往往較高,對業務影響也比較大。

本文分享自華為雲社群《【華為雲Stack】【大架光臨】第1期:華為雲網絡測量如何“懸絲診脈”》,作者:華為雲Stack資深架構師 李俊武 。

一、背景:

雲計算為資料中心注入新活力,業務通過雲化來實作資源快速部署;彈性伸縮和靈活創新,而網絡領域也從原來的交換機、路由器、防火牆等實體網絡逐漸延伸到包括虛拟交換機、虛拟路由器、虛拟防火牆和應用類網絡虛拟裝置的虛拟網絡。

傳統網絡裝置運維已經形成了配套的标準和工具,比如交換機裝置常用的端口收發封包計數、SNMP交換機監控名額、端口鏡像/流鏡像/ERSAPN鏡像、ACL計數、日志資訊等。随着網絡SDN架構的發展,基于SDN架構的雲網絡具有智能化的基因,比如網元提供Netconf資訊上報接口等。随着雲網絡的發展以及業務上雲的普及,虛拟網絡成為雲計算開發者、使用者、運維工程師等角色需要深入了解的技術。

網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”

圖1 雲網絡的常見流量

二、雲計算虛拟網絡發展帶來的問題和難點

網絡領域在IT技術裡一直是比較複雜的,而網絡故障發生頻率往往較高,對業務影響也比較大。傳統業務上雲後,計算和存儲的資源對象是局部靜态的,本身就有通路權限控制的概念,除了同主機資源隔離外并不需要太多特定的隔離技術,但是網絡資源對象卻是全局的且處于變動的運作态,不同租戶間甚至VPC内部都有隔離訴求;而且業務運作時一旦出現雲網絡問題會讓運維人員感到棘手和頭疼。 是以,對雲平台運維人員提出了更高的要求,包括虛拟網絡系統知識的學習、雲平台虛拟網絡架構的學習等,并且也對雲平台虛拟網絡的運維工具的功能豐富度和普适性都提出了新訴求。

雲網絡有很多自身的特點和測量的前提限制,是以雲網絡測量和傳統網絡測量在技術方案上會有些不同,我們逐一來分析下:

雲平台的虛拟網絡需要大量的軟硬體系統知識和相關工具

實體網絡多是網絡協定RFC和相關裝置特性的積累,而虛拟網絡的技術掌握除了需要熟悉傳統網絡相關技能外,還需要了解程式運作的CPU/記憶體等硬體、OS/工具等軟體有關知識,并且積累相關雲網絡運維的可用技術和工具手段也是一件非常瑣碎的事情。

虛拟網絡架構複雜,涉及網絡功能繁雜,需考慮運維技術的普适性

為了實作位址重疊和多租戶VPC能力,并且具備從傳統網絡架構上演進為雲網絡的能力,雲網絡整體架構通常分下Underlay和Overlay兩層,常見技術是Vxlan、NvGRE或Geneve等隧道封裝,Underlay網絡是雲平台運作的實體網絡,虛拟網絡是在雲網絡裡由租戶來建立,但其維護職責依然在雲平台相關的管理/運維角色來負責,是以雲網絡運維要支援分開測量業務Overlay網絡和底層Underlay網絡,且二者測量能力是解耦的,以解除對Underlay網絡硬體依賴;雲網絡測量還具有網元分布式範圍廣、非對稱路由存在廣泛、網絡配置動态變更頻率高、子網位址重疊等特征,這些也是雲平台網絡測量必備适應能力。

虛拟網絡測量不可影響租戶業務

雲網絡環境下,計算執行個體運作的業務屬于對應租戶,網路測量不能對租戶業務造成任何的影響,不能因為測量導緻業務封包丢棄,或是業務封包測量資訊進入計算執行個體内造成業務受損;這就決定了傳統修改業務封包的DSCP/TTL等字段作為測量封包辨別是不可取的。雲網絡測量如果想達到良好的效果和影響可控,必須采用主動測量,而主動測量的封包必須和業務封包在轉發路徑上要一緻,才能達到精确測量的目的。

網絡測量的安全性

傳統網絡業務和網絡屬于同一個管理者,是以業務可以配合網絡測量并且不會對業務造成影響。但是雲網絡測量不同,一方面因為雲平台為租戶提供資源租用服務的原因,一旦對業務封包修改可能造租戶成業務影響;另一方面對于惡意租戶,可能會知曉測量内部實作,故意僞造或風暴大量測量動作,進而造成網絡測量的錯誤甚至影響平台工作的運作穩定。是以網絡測量封包和測量方案一定是要經過精心的設計,即前面說的必須主動測量。一雲網絡測量的測量辨別有一部分是可以自定義的并且可控的可周期性變化,縱然惡意租戶發送的僞造測量辨別一樣,但自定義部分無法被測量算法比對而識别到是攻擊,進而達到安全測量的目的。

政企客戶的雲平台裡,虛拟網路和實體網路的建設及維護都在客戶的資料中心裡發生。對于政企的網絡建設或維護的負責部門,在技能積累、工具複用、運維流程等方面都有很大的差異,這些差異可能會造成雲平台管理維護、業務上雲的相關人員的不适應。是以雲平台通過轉發面資料的資訊采集和分析,對網絡故障定界定位,網絡測量技術意義非常重大。

三、華為雲的獨門秘籍:網絡帶内測量方案為雲網絡“懸絲診脈”

華為雲Stack通過雲平台運維功能提供了相應的網絡定界能力,将原來數小時甚至數天才能定界清楚的故障場景,縮短到了分鐘級,并且精确度和流量适應性都極大的提高,同時很大程度上降低了維護人員的技能要求和對雲平台内部實作細節的熟悉程度的要求。

網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”
網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”

圖2 華為雲Stack網絡測量工具界面

在IETF RFC 7799論文中,将網絡測量分為了三類:主動(Active,構造測量封包來擷取網絡運作資訊)、被動(Passive,在業務封包原始資料來擷取網絡運作資訊)和混合态(Hybrid type;混合态又分為兩種,一種是在原始業務封包上添加比如修改DHCP、IP/TCP OPTION等,另一種是主動和被動的同時使用)。

僅僅基于原有故障業務的封包進行測量會存在不可控的問題。舉個例子,假設是租戶錯誤配置防火牆規則導緻特定源端口丢棄,導緻客戶業務流出現了TCP流量中斷;想定位/定界這個問題需要基于在該TCP流封包路徑各個結點繼續采集擷取網絡運作資訊,但是因為TCP中斷該流,不再有新封包發送而無法繼續測量。而對于該斷流場景,又不能基于Ping封包等做測試,一方面Ping封包相比TCP五元組在網元叢集時可能因ECMP/LACP的哈希走不同路徑,另一方面防火牆/SNAT比對時走的有狀态轉發規則也不同,是以可能存在Ping測量沒有問題,但是特定TCP流有問題的情況而無法測量出結果。是以,基于業務封包自身的測量,對于測量速率、測量總量等都無法有效控制,被動測量的方式在雲網絡測量系統的測量效果将會十分不理想。

我們可以看出,雲網絡測量想達到極好的測量效果,我們必須使用有可程式設計能力的網絡測量技術,并且使用主動測量來設計相關方案,進而實作精确的網絡測量。我們提出了華為雲自己的網絡帶内遙測協定。應用場景包括雲計算網絡的業務故障網絡節點測量定位,并相容傳統資料中心測量的能力。可用在企業自建雲下,可以進行虛拟網絡和實體網絡元件問題定界以配置設定問題到具體責任元件,還可以為公有雲租戶提供定期巡檢能力,讓其業務感覺雲平台網絡情況,合理進行業務流量優化排程。測量平台整體架構如圖3中的架構。

網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”

圖3 雲網絡測量架構設計

華為雲Stack雲網絡方案實作通常分為控制面和轉發面兩個部分,雲網絡測量系統對應的分别由測量控制器、測量CMDB、測量網元及其對接Agent或SDN控制器幾個關鍵元件構,這些元件互相配合,實作網絡精準測量。我們為此申請了專利《網絡測量系統、方法、裝置及存儲媒體》申請号:201910886165.6。

在整個測量系架構統設計中,我們實作了如下幾個關鍵技術點:

  1. 高精準性:測量系統基于故障業務流封包/L2/L3/L4頭等資訊結合測量辨別建構Active的測量封包,進而實作精确的測量;
  2. 高安全性:測量系統對租戶的業務流封包的進行安全測試: 在測量路徑始節點開始注入測量,測量路徑各個節點進行測量辨別比對并将測量資訊送到測量控制器和分析器,并在測量路徑末節點丢棄該測量封包避免對租戶業務産生不良影響,各節點測量資訊在分析器彙總後将測試結果傳回測量系統管理者;
  3. 低資源損耗:測量系統針在轉發面網元通過測量辨別來識别測量封包,轉發面網元對測量封包的識别特征歸一,僅需要固定下發少量比對規則,不需要随着測量動作動态更改網元配置,轉發面性能影響在3%以下,大大減少了網元比對的資源耗費。
  4. 高靈活性:測量Agent采集各測量結點的測量資訊時,除了原始測量封包的内容,還包括封包轉發狀态資訊和時間戳等相關資訊,并且可以基于程式設計能力自定義所需要的采集資訊;
網絡生病了怎麼辦?看華為雲網絡測量如何“懸絲診脈”

圖4 華為雲網絡測量方案關鍵技術點說明

四、華為雲網絡測量方案的小結

華為雲Stack的虛拟網絡基于測量方案——網絡帶内遙測協定,實作不同租戶、不同業務流封包的測量辨別在控制面、轉發面等協作測量。既可以實作網絡故障出現後的故障定界,也可以在故障發生前進行周期性巡檢來事前預防,特征包括丢包和時延等。經過精心設計的雲網絡測量方案不僅可以适用于Underlay和Overlay的不同網元,還可以自适應不同網絡流量的路徑,後續雲網絡新能力上線後測量能力無需重新開發适配,幫助政企業務在雲上穩定運作。

點選關注,第一時間了解華為雲新鮮技術~

繼續閱讀