天天看點

裝置虛拟化技術——堆疊(上)

作者:泰克教育官方賬号

一、背景

随着雲計算技術的發展,大型企業都在部署自己的雲資料中心,華為CloudEngine交換機是資料中心級交換機,它大量部署在資料中心中,實作網絡大規模的資料轉發和保障關鍵業務的連續性。華為CloudEngine交換機支援堆疊,可以提供裝置級的高可用性,保障業務連續,以下我們介紹下華為的堆疊技術。

二、起源

在資料中心發展的初期,沒有專門的資料中心交換機,整個資料中心的網絡架構還是采用的園區網的三層架構,分别是接入、彙聚、核心,并且運作STP防環。随着資料中心通路量的增加,傳統的STP存在一些缺點:

  • 鍊路使用率低,STP協定會阻塞鍊路;
  • STP網絡的規模受限制,網絡收斂時間長;
  • 網絡管理節點多,運維困難。

STP到今天也在園區網中廣泛使用,但是到了資料中心網絡中,資料通路流量巨大,更多的是追求高效,安全以及擴充性。這些STP都無法滿足,于是裝置虛拟化技術就應運而生。

三、堆疊

堆疊是最早的裝置虛拟化技術,它将多台支援堆疊特性的裝置邏輯上虛拟成一台裝置。堆疊技術本質上是“合并”,它把管理平面、控制平面、轉發平面都合并到了一起,對外呈現唯一的管理IP和MAC位址,對于下遊裝置而言就是一台裝置。引入了堆疊之後整個拓撲就變得“高大上”,堆疊的優點:

簡化了組網

多台裝置組建堆疊,虛拟成一台裝置,隻需要對這台邏輯的裝置做管理即可。簡化的組網不再需要運作STP等協定。

裝置虛拟化技術——堆疊(上)

▷簡化組網▷

提高可靠性

堆疊系統中的交換機互為備援備份,同時還能實作跨裝置的鍊路備援備份,當堆疊系統中一台裝置的上行鍊路故障,通過該裝置的流量可經過堆疊鍊路進行轉發。

裝置虛拟化技術——堆疊(上)

▷提高可靠性▷

擴充帶寬

交換機的上行帶寬不足時,可以增加新交換機與原交換機組成堆疊系統,将交換機的多條實體鍊路配置成一個鍊路組,這樣就提高了交換機的上行帶寬。

裝置虛拟化技術——堆疊(上)

▷擴充帶寬▷

堆疊的應用帶來了以上的好處,但是随着技術的發展,其局限性也越來越明顯,這是由堆疊的本質所決定的,堆疊系統的成員交換機管理平面、控制平面、轉發平面緊密耦合,這導緻了如下的問題:

  • 控制平面單一: 堆疊系統中的主交換機控制管理着整個堆疊系統,一旦堆疊系統分裂,将造成業務中斷。
  • 更新複雜: 堆疊系統由于成員交換機間的緊耦合,隻能是兩台裝置一起更新,更新失敗将導緻堆疊系統下所有業務網絡中斷。即使華為交換機有快速更新的方式,盡量減少了更新過程中業務中斷,但是整個更新的過程仍然會有業務中斷的風險。
  • 在資料中心機房中針對不同的裝置應用的堆疊技術稍有差別,大緻分為了兩類,盒式交換機的堆疊iStack,框式交換機的堆疊CSS。

CSS

叢集交換系統CSS(Cluster Switch System),框式交換機的堆疊,CSS隻支援兩台交換機組建堆疊系統。那框式交換機如何組建堆疊?堆疊的連接配接方式是怎麼樣的?工作原理是怎麼樣的?在這之前有必要對框式交換機的架構有一定的了解,以CE12804為例,組成子產品分為:

裝置虛拟化技術——堆疊(上)

CE12804

裝置虛拟化技術——堆疊(上)

▷CE12804機框槽位分布示意圖▷

  • MPU:Main Processing Unit,(主要處理單元),簡稱:主要闆,負責系統的控制和管理工作。
  • SFU:Switch Fabric Unit,交換網闆,負責系統資料平面的資料線速交換。
  • CMU:Centralized Monitoring Unit(集中監控單元),簡稱:監控闆,主要提供裝置的監控、管理和節能減排功能。
  • LPU:Line Processing Unit,(業務處理單元),簡稱:業務闆,接口闆。
  • PM:Power Module,電源子產品。
  • FAN:風扇子產品。

CSS連接配接方式

了解了交換機的組成子產品,接着我們來看一下堆疊系統之間如何連接配接,CSS中連接配接的鍊路根據功能的不同分為了兩種類型:管理鍊路和轉發鍊路。管理鍊路負責堆疊系統管理及維護封包的轉發;轉發鍊路負責堆疊系統跨裝置業務資料封包的轉發。根據管理鍊路的連接配接方式的不同,堆疊的連接配接方式分為:主要闆直連和業務闆直連。

  • 主要闆直連:管理鍊路和轉發鍊路分離,管理鍊路通過主要闆(MPU)的SIP口相連接配接(SIP口是專用于連接配接堆疊管理鍊路的接口,是由一個GE電接口和一個GE光接口組成的Combo接口,每個主要闆上有兩個SIP口),轉發鍊路通過業務闆(LPU)的端口相連接配接。
  • 業務闆直連:管理鍊路和轉發鍊路合一,管理鍊路和轉發鍊路都通過業務闆(LPU)的端口相連接配接。
裝置虛拟化技術——堆疊(上)

▷堆疊連接配接方式示意圖▷

主要闆直連的管理鍊路和轉發鍊路分離部署互不影響,綜合可靠性高,建議優先采用主要闆直連方式。了解的堆疊的連接配接方式,接着我們來了解一下堆疊中的一些基本概念。

堆疊基本概念

  • 堆疊成員堆疊中的單台交換機稱為成員交換機,按照功能不同可以分為以下角色:

主交換機(Master)負責管理整個堆疊。堆疊中隻有一台主交換機。

備交換機(Standby)是主交換機的備份交換機。堆疊中隻有一台備交換機。

  • 堆疊域:交換機通過堆疊鍊路連接配接在一起組成一個堆疊,這些成員交換機的集合就是一個堆疊域。為了适應各種組網應用,同一個網絡裡可以部署多個堆疊,堆疊之間使用域編号(DomainID)來以示差別。
  • 堆疊成員ID:即堆疊成員交換機的編号(Member ID),用來辨別和管理成員交換機。堆疊中所有成員交換機的堆疊成員ID都是唯一的。
  • 堆疊優先級:主要用于角色選舉過程中确定成員交換機的角色,優先級值越大表示優先級越高,當選為主交換機的可能性越大。
  • 堆疊端口:專用與堆疊的邏輯端口,需要和堆疊實體端口綁定。一個堆疊端口可以綁定多個實體成員端口,用來提高堆疊的可靠性和堆疊帶寬。每台裝置支援一個堆疊端口,在堆疊功能未使能時,為Stack-Port1;在堆疊功能已使能時,為Stack-Portn/1,其中n為裝置的堆疊成員ID。
  • 堆疊實體成員端口:即被配置為堆疊模式的實體端口,用于堆疊成員交換機之間的連接配接。
裝置虛拟化技術——堆疊(上)

▷CSS基本概念示意圖▷

堆疊建立

裝置虛拟化技術——堆疊(上)

▷堆疊組建過程▷

裝置虛拟化技術——堆疊(上)

▷堆疊組建過程▷

2台交換機用堆疊線連接配接,并配置好堆疊相關的配置,堆疊系統即可建立。

主交換機選舉

堆疊建立時,成員交換機之間互發堆疊競争封包。選擇出主交換機,負責管理整個堆疊系統;另一台則成為備交換機,作為主交換機的備份。主交換機的選舉規則如下(依次從第一條開始判斷,直至找到最優的交換機才停止比較):

1.運作狀态比較,優先啟動的是主交換機。--優

2.堆疊優先級比較,優先級高的是主交換機。--高

3.軟體版本比較,軟體版本新的是主交換機。--新

4.主要闆數量比較,主要闆數量多的是主交換機。--多

5.橋MAC位址比較,橋MAC位址小的是主交換機。--小

堆疊建立後主交換機的主用主要闆成為堆疊系統主用主要闆,作為整個系統的管理主角色。備交換機的主用主要闆成為堆疊系統備用主要闆,作為系統的管理備角色。主交換機和備交換機的備用主要闆作為堆疊系統候選備用主要闆。

裝置虛拟化技術——堆疊(上)

軟體版本和配置同步

組建堆疊的兩台交換機的軟體版本不需要相同,隻要版本之間相容就可以,當選擇出主交換機後,如果主備交換機的軟體版本不一樣,備交換機會從主交換機上下載下傳新的軟體版本,使用新的軟體版本重新開機加入堆疊。

堆疊具備嚴格的配置檔案同步機制,用來保證堆疊中的多台交換機能夠像一台裝置一樣在網絡中工作。

  • 堆疊建立時,成員交換機在啟動開始階段使用各自的配置檔案啟動。啟動完成後,備交換機會将本裝置的堆疊相關配置合并到主交換機的配置檔案中,形成堆疊系統的配置檔案。
  • 堆疊正常運作後,主交換機作為堆疊系統的管理節點,負責将使用者的配置同步給備交換機,進而使堆疊内各成員交換機的配置随時保持一緻。
  • 通過即時同步,堆疊中的所有成員交換機均保持相同的配置。即使主交換機出現故障,備交換機仍能夠按照相同的配置執行各項功能。

堆疊管理

堆疊系統對外呈現為一台虛拟裝置,與其他裝置通信時,具有唯一的IP位址和MAC位址。堆疊建立後,成員交換機組成一台虛拟裝置存在網絡中,主交換機統一管理整個堆疊系統。我們可以通過任意一台成員裝置登入堆疊系統,對整個堆疊系統進行管理。無論使用什麼方式,通過哪台成員交換機登入到堆疊系統,實際上登入的都是主交換機。

登入堆疊系統的方式:

  • 本地登入:通過任意一台成員裝置的Console口登入。
  • 遠端登入:通過任意一台成員裝置的管理網口或其他三層接口,以Telnet、STelnet等方式遠端登入。

本地優先轉發

Eth-Trunk接口會通過HASH算法選擇轉發出接口,進入堆疊的流量可能會跨裝置轉發,但是由于堆疊線的帶寬有限,跨裝置的流量轉發增加了堆疊線的帶寬承載壓力,也降低了流量轉發的效率。此時,可以通過使能堆疊裝置的流量本地轉發功能解決此問題,從本裝置進入的流量,優先從本裝置的出接口轉發出口;如果本裝置的出接口故障,則流量跨裝置從其它成員交換機的接口轉發出去。

裝置虛拟化技術——堆疊(上)

▷流量本地優先轉發示意圖▷

如圖,堆疊裝置未使能流量本地優先轉發功能,會有一部分流量經過堆疊線從SwitchB轉發,裝置啟用了流量本地優先轉發功能後,從SwitchA進入的 流量優先從SwitchA的出接口轉發。

配置的指令:

[~SwitchB] interface eth-trunk 1

[~SwitchB-Eth-Trunk1] undo local-preference disable

#在堆疊裝置上使能Eth-Trunk接口流量本地優先轉發功能

堆疊分裂以及雙主檢測

堆疊系統建立後,主備交換機之間會通過堆疊線纜定時的發送心跳封包來維持堆疊。當是故障不可避免,一旦堆疊線纜或主要闆故障,交換機重新開機都會使得堆疊系統分裂成為2台獨立的交換機。如圖所示:

裝置虛拟化技術——堆疊(上)

▷雙主故障▷

分裂後的2台交換機,彼此不知道對方的狀态,此時原本主交換機的角色不變,原本備交換機的角色成為主交換機,“雙主”出現,這兩台交換機在整個網絡中表現為一樣的資訊,會以相同的IP和MAC位址與外界的裝置通信,導緻IP位址和MAC位址沖突,引起網絡故障。是以我們需要避免雙主的出現----雙主檢測技術。

雙主檢測DAD(Dual-Active Detect)是一種檢測和處理堆疊分裂的協定。配置雙主檢測後,主交換機在檢測鍊路上發送DAD競争封包。堆疊分裂後,分裂成多部分的堆疊系統互發競争封包,并将接收到的競争封包資訊與本部分競争資訊做比較,如果本部分競争勝出,則不做處理,保持Active狀态(正常工作狀态),正常轉發業務封包;如果本部分競争失敗,則除保留端口外的所有業務端口Error-Down,轉入Recovery狀态(業務禁用狀态),停止轉發業務封包。

堆疊分裂與雙主檢測DAD競争規則如下(依次從第一條開始判斷,直至找到最優的交換機才停止比較):

1.(僅主要闆直連方式涉及)整機業務口Error-Down狀态比較,交換機上不存在以下Error-Down的優先競争勝出:

  1. 因無轉發鍊路而導緻的整機業務口Error-Down(no-stack-link)。
  2. 因接口闆和交換網闆之間的鍊路故障而導緻的整機業務口Error-Down(fabric-link-failure)。以上Error-Down同時存在時,Error-Down原因是no-stack-link的交換機優先競争勝出。

2. 堆疊優先級比較,堆疊優先級高的交換機優先競争勝出。

3. 裝置MAC位址比較,MAC位址小的交換機優先競争勝出。

DAD的檢測方式有以下幾種:

業務口直連檢測方式

裝置虛拟化技術——堆疊(上)

特點:堆疊成員交換機間通過業務口連接配接的專用鍊路進行雙主檢測;業務口直連檢測方式中DAD封包采用的是BPDU封包,是以直連檢測鍊路還可以通過中間裝置連接配接。

配置

interface 10ge1/0/5

dual-active detect mode direct

interface 10ge2/0/5

dual-active detect mode direct

優缺點:需要單獨占用10GE的業務端口,但是檢測速度是最快的Eth-Trunk口代理檢測方式

裝置虛拟化技術——堆疊(上)

特點:堆疊與代理裝置相連的跨裝置Eth-Trunk鍊路進行雙主檢測;

配置:

堆疊系統

interface eth-trunk10

trunkport 10ge 1/0/5 #框式交換機的端口是10ge 1/1/0/5和10ge 2/1/0/5

trunkport 10ge 2/0/5

dual-active detect mode relay

代理裝置

interface eth-trunk10

trunkport 10ge 1/0/1

trunkport 10ge 1/0/2

dual-active proxy

優缺點:無需占用額外的接口,Eth-Trunk接口可以同時運作DAD代理檢測和其它業務,需要代理裝置,且代理裝置必須為支援DAD代理功能的交換機(目前cloudengine系列交換機支援,S系統交換機自v200R003C00版本開始支援)

管理網口檢測方式

裝置虛拟化技術——堆疊(上)

特點:通過堆疊成員交換機的管理網口鍊路進行雙主檢測;管理網口必須配置IP位址,堆疊後整個系統隻顯示一個管理網口MEth0/0/0,隻需要在這一個管理網口下配置IP位址。

配置:

interface meth 0/0/0/0

ip address 192.168.10.10 24

dual-active detect enable

優缺點:實作最簡單,不需要額外的接口,也不需要代理裝置,

堆疊端口檢測方式(僅CSS有)

裝置虛拟化技術——堆疊(上)

特點:通過堆疊實體成員端口之間的鍊路進行雙主檢測。

配置:

interface stack-port 1/1

dual-active detect mode direct

interfacestack-port 2/1

dual-active detect mode direct

優缺點:隻有框式交換機且連接配接方式為主要闆直連時,才可以使用堆疊端口檢測方式。

DAD的故障恢複機制

堆疊鍊路故障修複後,分裂成多部分的堆疊系統進行合并。處于Recovery狀态的交換機将重新啟動,同時将Error-Down的業務端口恢複正常,整個堆疊系統恢複。

有關技術分享更多的資訊,可以私信呀

繼續閱讀