天天看點

《思科資料中心I/O整合》一2.9 其他元件

本節書摘來自異步社群《思科資料中心i/o整合》一書中的第2章,第2.9節,作者【美】silvano gai , claudio desanti,更多章節内容可以通路雲栖社群“異步社群”公衆号檢視

思科資料中心i/o整合

我們目前讨論的是實作i/o整合所需要的基本元件,其他還有一些技術可以幫助實作更大規模的i/o整合部署。在下一節中,我們将介紹以下元件:

發現協定(例如,dcbx);

帶寬管理器(例如,ets);

擁塞管理(例如,bcn/ qcn)。

dcbx:資料中心橋接交換

dcbx的名稱來自于ieee 802.1資料中心橋接工作小組,它涉及文檔中所描述的大多數以太網擴充。dcbx是資料中心橋接的管理協定,由ieee 802.1qaz項目定義。dcbx是鍊路層發現協定(lldp,參見ieee 802.1ab-2005)的擴充。lldp是一種與供應商無關的2層網絡協定,允許網絡裝置向本地網絡廣播其身份及其支援的功能。

dcbx為以下協定提供逐跳支援:

基于優先級的流量控制(pfc);

帶寬管理(ets);

擁塞管理(bcn/ qcn);

應用程式(例如,fcoe);

邏輯鍊路中斷。

dcbx能夠發現鍊路兩端節點支援的功能,并且能夠檢查它們的一緻性。dcbx能夠通知裝置管理器節點配置不比對的問題,并且如果其中一個節點未進行配置,dcbx還能夠提供基本的配置。

圖2-8展示了一種使用dcbx的網絡部署場景。支援dcbx的鍊路能夠交換dcb的功能,并向相應的管理節點發送沖突告警。例如,圖中是用網絡邊界來表示支援和不支援擁塞管理的裝置。

《思科資料中心I/O整合》一2.9 其他元件

帶寬管理

ieee 802.1q-2005定義了8種優先級,但是沒有一種簡單、有效和統一的排程機制來處理它們。排程機制的目标一般包括帶寬、延遲和抖動控制。

産品一般實作了某種形式的差額權重輪詢(dwrr),但是并沒有統一的實作機制,是以在産品配置和互操作方面仍然會出現問題。

在802.1qaz項目中,ieee 802.1 dcb定義了一種硬體高效的雙層差額權重輪詢(dwrr)機制,支援嚴格優先級(strict priority),我們稱之為增強傳輸選擇(enhanced transmission selection,ets)。

圖2-9說明了如何通過ets将優先級歸到第一級排程的優先級分組中,然後再通過第二級排程器對優先級分組進行排程。

通過這種結構,就可以給每一個優先級分組配置設定帶寬(例如,40% lan、40% san和20% ipc)。在每一個優先級分組中,多個流量類型可以共享該分組的帶寬(例如,voip和大流量可以共享40%的lan帶寬)。

這種架構不僅能夠控制帶寬,也能夠控制延遲時間。延遲時間對于資料中心而言越來越重要,特别是在ipc應用程式中。

《思科資料中心I/O整合》一2.9 其他元件

擁塞管理

無損耗以太網的缺點之一是,當出現擁塞現象時,它會造成頭節點阻塞(hol)。這是因為無損耗以太網會将擁塞散播到整個網絡。

在802.1qau項目中,ieee 802.1 dcb定義了一個2層的端到端擁塞通知協定。它的實際效果是将擁塞從網絡核心轉移到網絡邊緣,進而避免擁塞散播。在網絡邊緣,擁塞更容易處理,因為網絡邊緣的資料流數量遠遠少于網絡核心,是以導緻擁塞發生的資料流更容易被隔離,并且被限制速率。

這裡考慮使用的算法包括反向擁塞通知(backward congestion notification,bcn)和量化擁塞通知(quantized congestion notification,qcn),其中qcn正處于标準化過程中。它們非常類似,其作用如圖2-11中所示。

《思科資料中心I/O整合》一2.9 其他元件

在使用擁塞通知機制時,出現擁塞的交換機(例如,擁塞點或cp)會向擁塞源發送消息(例如,響應點或rp),發出其擁塞狀态的信令,另外還需要通過整形進入網絡的流量進而減小傳輸速度。

在接收到擁塞通知消息時,它會在擁塞源的最近位置安裝一個速度限制器,可能就位于産生流量的主機上,這樣就能夠減輕網絡核心的擁塞現象,同時又不會導緻擁塞擴散。

這種信令機制與pause的主要差別是,pause采用逐跳的工作方式而擁塞通知消息則可以通過所有路徑到達擁塞源(參見圖2-12)。

速度限制參數會根據擁塞點的回報來進行動态調整。這與tcp在傳輸層(iso osi模型的第4層)的工作方式相似,但它是在2層協定上實作的,是以适用于所有流量類型,而不僅僅局限于tcp。這裡使用的算法是additive increase multiplicative decrease(aimd)速度控制算法。在不存在擁塞時,它會線性增加帶寬的使用,但是在遇到擁塞時,它會以指數方式減小帶寬的使用(例如,帶寬減半)。mds交換機的光纖通道也實作了類似的模式,被稱為光纖通道擁塞控制(fibre channel congestion control,fccc)。

《思科資料中心I/O整合》一2.9 其他元件

延遲丢包

延遲丢包意味着使用pfc或pause緩解短時間突發流量的影響,而對于長時間的擁塞則維持丢棄幀的處理方式。

延遲丢包允許将交換機緩存區實際上擴充到了前一跳。通過使用pfc,延遲丢包可以實作按優先級控制,并且特别适用于處理有損耗優先級,可以減少因暫時擁塞而造成的丢幀數量。具體的實作方法是判斷有限時間段中優先級的pfc。

采用延遲丢包的主要原因之一是交換機的緩存區空間有限。由于能夠從前一個交換機借用緩存區空間,是以可以緩解瞬時擁塞問題(例如,isolated burst),而且不會在有損耗優先級上出現丢幀現象。

在特定的時間段過去之後,或者峰值回落時,流量流回歸正常,或者像标準以太網一樣将幀丢棄。

圖2-13顯示了一種延遲丢包的實作方式,它使用代理隊列測量突發流量的時長。在正常運作狀态中,當幀增加或減少時,代理隊列(實際上不存在,隻是一組計數器)會模拟實際隊列。如果接收到突發流量,實際隊列會設定高位标記,然後發送一個pause或pfc,阻止幀繼續到達。代理隊列遠遠大于實際隊列,可以模拟繼續接收幀的狀态。當代理隊列被填滿時,pause或pfc就會被釋放(例如,生成一個時間為零的pause或pfc幀),這時,幀就被丢棄,因為發送端已經恢複傳輸,而實際隊列已滿。延遲丢包的具體表現如表2-1所示。

《思科資料中心I/O整合》一2.9 其他元件

換而言之,在短時間的擁塞過程中,兩個隊列的排隊量都會快速減少,實際隊列會釋放pause。而在長時間的擁塞過程中,代理列隊會繼續排隊直到高位标記,并釋放pause。實際隊列就開始抛棄資料包,而擁塞管理則由高層協定來接管。

繼續閱讀