天天看點

超大規模資料中心内的資料鍊路層自動測試案例

超大規模資料中心内的資料鍊路層自動測試案例

如今,資料建立、存儲和處理的指數增長正在推動全球對超大規模資料中心的需求。這些資料中心的基礎設施大部分由亞馬遜、微軟和谷歌等雲計算服務提供商(CSP)設計和管理,它們依賴于強大的實體連接配接來確定充分利用部署的存儲和計算資源。 

使用者可以使用自動化解決方案對這些關鍵實體連接配接的資料鍊路層進行測試和故障排除。但首先應該了解和檢查連結和連結類型。 

超大規模資料中心内最常見的三種實體元件是:直連銅纜(DAC)、有源光纜(AOC)以及連接配接到收發器的光纜元件。這三個連接配接元素都可以被視為資料傳輸的高速公路。

這些元件的基本電氣和光學連接配接功能的正常運作不僅很重要,資料鍊路層在既定網絡/制造商規範内運作也很重要。

這些連接配接元素主要由于資料速率和實體鍊路長度(最大覆寫範圍)而有所不同。直連銅纜(DAC)用于連接配接相距很近的裝置,并且最常用于連接配接同一機架内的兩個元件。 

有源光纜(AOC)具有擴充範圍,可以連接配接同一行機架内的兩個裝置,甚至可以連接配接到相鄰行。光纜元件(包括連接配接到資料中心入口面闆的長距離電纜)可以連接配接兩個相距很遠的裝置(根據它們所連接配接的收發器,通常長達100公裡)。 

無論其跨度的資料速率或距離如何,都必須對所有這些鍊路進行監控和測試,以確定實體和資料鍊路層的功能都在标準範圍内。 

PART 01

直連銅纜(DAC)

直連銅纜(DAC)是一種替代方案,其電纜本身是由銅線制成的。當信号處理電路內建在直連銅纜(DAC)内置連接配接器時,直連銅纜(DAC)可以是無源或是有源的,以提供直接連接配接。 

與有源光纜(AOC)一樣,直連銅纜(DAC)将由小型可插拔(SFP)子產品或四通道小型可插拔(QSFP) 子產品端接,具體取決于線路速率。有源光纜(AOC)支援更長的傳輸距離,并且比直連銅纜(DAC)線纜更輕巧。然而有源光纜(AOC)支出的成本更高,而且光纖比銅纜更容易損壞。有源光纜(AOC)和直連銅纜(DAC)電纜也可作為分支線路提供。 

PART 02

有源光纜(AOC)

有源光纜(AOC)用于資料中心的點對點互連應用,通常應用在同一行的機架内。 

在将有源光纜(AOC)與帶有收發器(也稱為可插拔光學器件,例如SFP和QSFP)的光纜元件進行比較時,有源光纜(AOC)提供了一種簡單的安裝方式,無需考慮互連損耗,也無需在之前清潔和檢查光纖端面進行連接配接。 

但是,有源光纜(AOC)不能用于使用配線架的行尾(EOR)或行中(MOR)配置。對于40GE、100GE和400GE的高速鍊路,這通常意味着在帶狀電纜上使用多個資料通道。在10GE、25GE或50GE的情況下,每個方向采用單通道或光纖就足夠了。 

一個關鍵屬性是有源光纜(AOC)使用與可插拔光學元件相同的機籠,并在每個電纜末端執行光電轉換。實際上,這意味着40GE和100GE的QSFP端接(400GE的QSFP-DD)和10GE和25GE的SFP端接。 

是以,有源光纜(AOC)處于活動狀态,除了光纜之外,其元件還包括收發器、控制晶片和子產品。有源光纜(AOC)電纜的長度固定, 通常從幾米開始,以及延伸到100米或更長。 

從技術上來說,有源光纜(AOC)不必符合衆多以太網接口類型中的任何一種,盡管許多有源光纜(AOC)都在産品資訊中宣傳符合某種以太網接口類型。 

由于直連銅纜(DAC)和有源光纜(AOC)沒有提供對實際光纖或銅纜布線的測試通路,是以無法使用傳統媒體測試和認證工具對電纜進行認證或故障排除。與其相反,必須使用可以接受雙SFP/QSFP收發器并生成和分析流量的測試工具。 

測試直連銅纜(DAC)和有源光纜(AOC)是確定網絡性能的任何問題都不是由于直連銅纜(DAC)/有源光纜(AOC)或其安裝引起的關鍵步驟。考慮到一旦出現安裝故障,不預先對電纜進行測試,其成本會更高。 

是以,有必要追蹤和定位遠端。直連銅纜(DAC)/有源光纜(AOC)故障原因包括簡單的制造缺陷,極性錯誤或反接,以及在運輸過程中貼錯标簽或損壞。 

對于有源光纜(AOC),它們可能會過度彎曲導緻高損耗或纖維可能被壓碎。在采用直連銅纜(DAC)的情況下,可能會出現電磁幹擾(EMI),進而導緻過多的誤碼。在超大規模資料中心添加更多要測試的電纜,很容易了解自動化測試過程的需求。 

邊緣部署和分解:在安裝時平衡測試的時間/成本效率 

在光纖網絡時代,建設和調試超大規模資料中心,意味着承包商還負責對這些多元件白盒網絡中每條光纖鍊路的性能、可操作性、壓力、可靠性進行測試和認證。 

将此與超大規模資料中心的指數級增長以及更接近最終使用者的需求相結合,其結果是更多的邊緣部署(網絡虛拟化)。這迫使超大規模資料中心在最大限度地減少網絡延遲的同時提高速度、安全性和效率。 

同時需要快速啟動邊緣部署,這可能會增加在安裝之前不測試所有電纜的決定,而是選擇等待,并在故障排除期間解決任何連接配接問題。

同樣,在故障排除過程中,需要盡可能減少停機時間,這通常會導緻決定切斷或斷開電纜并鋪設新電纜,而不是排除故障或移除現有電纜。

在通常情況下,從機櫃中拉出的未經測試的電纜會被退回給制造商,但制造商卻聲稱電纜沒有問題,或者由于電纜大量故障而無法對其進行診斷。

這種情況不僅代價高昂(電纜的價格可能從幾十美元到幾千美元不等,具體取決于線路速率),在機櫃中的無用線纜将造成擁塞,而且還可能導緻标簽錯誤或混淆,并增加拔出運作電纜的可能性。

由于原有的電纜具有速率特異性,無法在更新中使用,是以在機櫃中留下切斷和死線會産生更大的體積和重量,進而影響機架結構主功能。 

PART 03

誤碼率測試的價值

由于電纜成本的變化以及其他因素,很難準确說明在安裝時測試和驗證每條電纜的時間成本優勢。 

然而,從理論上不難推斷,如果安裝時沒有測試足夠的電纜,未來的故障排除工作以及網絡更新将更加耗時和昂貴。

測試電纜最簡單且最具成本效益的方法是運作測試模式,将結果與誤碼率(BER)門檻值進行比較。直連銅纜(DAC)和有源光纜(AOC)(包括分線)通常在其資料表上标有誤碼率(BER)等級,尤其是當它們旨在與實作RS-FEC算法的裝置一起使用時。 

誤碼率(BER)等級取決于電纜的類型、線路速率和以太網接口的類型。對于用于RS-FEC編碼流量的電纜,通常為400GE、100GE、50GE和25GE,甚至可能同時存在FEC前等級(糾錯前)和FEC後等級(糾錯後)。 

在這種情況下,建議使用接近電纜誤碼率(BER)額定值的預FECBER門檻值執行電纜測試,并確定測量的誤碼率(BER)小于成功測試的門檻值。 

對于不使用RS-FEC的40GE和10GE電纜,預期的誤碼率(BER)門檻值需求小很多,因為這些線路上沒有糾錯功能。在這種情況下,如果沒有直連銅纜(DAC)或有源光纜(AOC)的誤碼率(BER)等級,建議的門檻值誤碼率(BER)為10^-12。

每條電纜進行一分鐘的測試足以在10Gbps或更高的線路速率下獲得有意義的誤碼率(BER)結果。電纜測試的最佳實踐程式将生成測試報告,包括電纜辨別符(例如序列号)等資訊,可以從直連銅纜(DAC)或有源光纜(AOC)電纜讀取。 

繼續閱讀