天天看點

雲網絡時代 網絡故障管理何去何從?

檢測、發現和糾正網絡故障從來都不是容易的事情。過去是用戶端伺服器“統治”、應用運作在指定伺服器、最終使用者通過以太網、租用wan鍊路或其他服務連接配接的時代,彼時網絡故障管理已經比較麻煩了,而現在大型資料中心和雲網絡讓網絡故障管理更具挑戰性。

雲網絡時代 網絡故障管理何去何從?

技術在變化,但最終結果是最重要的。這裡的問題是:使用者是否在接受所需的服務品質?答案取決于應用和網絡性能。現在的應用通常在公共、私有或混合雲上運作,應用作為負載轉移在伺服器之間遷移。伺服器和資料存儲之間的吞吐量取決于其他應用放在共享鍊路的負載。

網絡性能取決于連接配接使用者到應用的網絡的類型和容量。本地使用者可能通過以太網或無線網絡連接配接,遠端使用者則通過各種wan技術連接配接,包括公共網際網路或蜂窩網絡等。每種連接配接都需要專門的方法來維持所需的性能。任何這些位置(應用或網絡)的故障都可能降低客戶滿意度。

雲故障檢測

很多拓撲結構和設計(其中包括虛拟化伺服器、多個虛拟區域網路和覆寫網絡)讓雲故障檢測和網絡故障管理變得更加複雜。一個租戶的應用出現性能問題可能與影響另一個租戶的問題并沒有什麼關聯,但它們可能來自同一來源。每個租戶的應用可能在相同超載或配置錯誤的伺服器上執行,或者兩個租戶的覆寫網絡通過相同超載或故障連結來路由。

海量的伺服器、網絡元件和連結是故障的一大來源。現代硬體極為可靠,盡管每個元件有多年故障平均時間,但對于數千獨立的裝置來說,依舊會有硬體故障發生。

配置錯誤是另一個問題來源,該問題可由網絡故障管理進行跟蹤。伺服器和網絡裝置不斷添加、更新或取代。大型雲計算通常包括來自不同供應商的元件,甚至來自同一供應商的相同元件也可能運作着不同的軟體版本。在這種環境中,任何變更都可能導緻錯誤的出現,同時,對一個元件的改變還可能影響到其他元件。

簡單地檢測和報告錯誤已經不夠,每個錯誤可能導緻幾十份錯誤報告。鍊路故障會在鍊路兩端的交換機生成硬體故障訓示,并且每次鍊路故障和恢複時都會發出新報告。2層和3層網絡協定路由會改變,在備用路由流量水準接近最大數值時鍊路流量監控也會變化。同時,應用性能監控器會從通過該鍊路路由流量的每個應用報告問題。

故障相關性及其在網絡中的作用

沒有哪個網絡管理者能夠整理完單一故障生成的海量報告,并快速發現其根本原因。對此,故障相關性軟體很重要,這是每個主流系統供應商網絡管理産品的重要組成部分。

故障相關性産品利用各種機制來發現問題,其中包括snmp trap、tl1消息、應用日志和syslog條目。snmp和特定産品輪詢監控器運作在伺服器、交換機和鍊路。相關性工具還可監控裝置問題、電源電壓和磁盤可用空間來預測未來的問題。

網絡故障管理軟體必須提供對網絡準确的且最新的視圖。該軟體必須保持更新(無論是通過手動或者通過網絡映射),以追蹤添加的、移除的或更新的元件。它必須維護每種元件的内部型号,介紹其配置和功能,并包含網絡營運政策的描述。當添加應用時,還必須更新服務水準協定(sla)等資訊。

此外,故障相關性軟體必須與雲編排軟體來互動,追蹤正在運作的應用、它們在哪些伺服器運作和vlan以及與每個租戶相關的覆寫網絡。網絡故障管理軟體還必須不斷根據slan監控應用性能水準。

當出現問題時,相關性軟體會擷取所有接收到的故障訓示,并利用有關的網絡拓撲以及在故障出現前資料如何移動的資訊來确定根本原因,并為網絡管理人員提供簡要的報告。

sdn網絡

雲計算與sdn技術管理的資料中心面臨着與依靠傳統技術的資料中心相同的潛在問題。它們都需要故障相關性軟體,但sdn架構需要将相關性軟體内置到網絡控制器或與其緊密連接配接。

這種差異的原因是spanning tree和open shortest path first等傳統協定在網絡裝置内部部署。它們在鍊路或端口問題阻止流量時根據需要重新路由流量。通過sdn,所有路由都由控制器來确定,故障相關性軟體必須告知控制器問題的類型,以便它能夠确定備用路由。

openflow相容的白盒交換機支援各種供應商的作業系統,每個都有自己的檢測和故障報告方法。big switch和pica8的作業系統都支援snmp,但big switch的控制器和交換機作業系統利用openflow消息來與裝置進行通信。相關性軟體通過接口與控制器通信,從裝置處接收消息,并輪詢其狀态。

無線網絡和廣域網

wi-fi依靠一組專門的工具來診斷問題。wi-fi連接配接可受到很多問題的影響,例如信号幹擾、牆壁或阻止信号的固态物體,以及安全漏洞。現在有各種故障排除産品,包括免費軟體和專業的軟體産品。還需要專門的硬體産品來診斷某些類型的問題。

在網絡服務提供商擁有和管理的wan連接配接的情況下,關鍵參數是吞吐量和往返時間,這方面也有免費和專業産品可供選擇。

滿足最終使用者性能要求需要應用性能的各方面都正常運作。在出現問題時,網絡故障管理和故障檢測産品必須能夠查明原因,使它們可快速被修複以及恢複正常運作。

====================================分割線================================

本文轉自d1net(轉載)