天天看點

分析一次STP無法生效的故障

今天下午,突然間收到通知,下面某個分點的故障報告:由于機房線路整改,網絡突然中斷。所有工作站無法連接配接伺服器。

由于事關重要,上司要求立即趕往現場進行技術支援。路途中我經過多次與分點技術人員進行交流,整理了拓撲資料:

<a href="http://golehuang.blog.51cto.com/attachment/201103/29/7499_1301416912WFdT.png"></a>

MDF連接配接網關、伺服器,部分工作站。MDF通過兩對光纖到其中一個IDF的兩台交換機,這兩台交換機作為彙聚,與其它接入交換機互聯。上述兩台樓層核心互聯,與MDF的交換機成環保護。IDF另備有1條到MDF的UTP作備用。

故障發生時,綠色,即所有連接配接到MDF的工作站連接配接伺服器沒有問題;但紅色,即連接配接到該IDF的所有工作站均無法連接配接伺服器。結合之前線路整改,由此判斷,應該是MDF與IDF之間的樓層骨幹中斷。但由于區域網路已成環保護,照理來說,即使其中一條Fiber骨幹終端,STP應該能夠啟動另一條Fiber作為樓層骨幹。為何STP收斂會造成上述情況呢?

由于趕到現場前故障已經排除,但沒有作現場錄像驗證,是以無法判斷屬于哪方的責任。隻能從裝置日志中了解相關情況。

根據現場從業人員的事故描述,發生故障時,在MDF檢查的從業人員沒有發現異常情況;而IDF檢查從業人員檢查發現,IS1光纖子產品燈為黃色,而MS1光纖子產品燈正常。由于當時正對MDF的配線進行登記,有可能觸碰了MDF的交換機光纖線路。從業人員經過插拔并清潔光纖口後插回,網絡恢複正常。

到達事故現場後,開始着手進行故障分析。首先登入IS1檢查Log,發現備案密碼錯誤(低級錯誤,應自我檢讨),于是登入到MS1,show log,發現最近的Log裡面居然沒有任何級聯口的提示!照例說,IS1亮黃燈,應該會造成MS1同時報警,為何MS1卻沒有告警呢?

通過現場不斷了解情況,我了解到當時施工方所做操作為檢查光纖跳線的連接配接情況。一般來說,光纖對操作,無論插拔都是每根單獨進行的。難道說是UDLD?根據UDLD描述,單進端的網橋STP是無法檢查出異常情況的。假如說MS1接收正常,IS1接受異常,在IS1已經進行STP生成樹運算并要求啟用另一條Fiber時,MS1卻依然沒有進行STP計算。是以MS1有可能仍舊采用舊的MAC表位址,導緻工作站無法正常連接配接到伺服器!

由于當時正處于工作時間,不便進行測試。于稍晚時,分點從業人員有單獨進行了一次STP觸發測試,發現當兩對光纖同時拔下時,經過大約9個ICMP Timeout後,STP收斂。基本證明了問題成因為單向鍊路導緻IDF網絡中斷。

經驗總結:這次工作總結起來還有很多做的不夠的地方。第一是安全實施不嚴謹,以為STP成環即可實作區域網路線路保護,卻忽視了實驗室裡極少提到的UDLD;第二是理論知識掌握不牢,對于故障成因的分析沒有抓住要點,造成分析時間過長;第三是日常管理不到位,很多資料都是由分點提供,也沒有經過校對,影響了排查時間。

本文轉自 gole_huang 51CTO部落格,原文連結:http://blog.51cto.com/golehuang/530453

繼續閱讀