天天看點

記錄一次區域網路突發網絡環路處理過程——全是血淚

這是自己做網絡應急的一次過程描述:

問題症狀:

1、網絡内突然出現時斷時續,丢包比較嚴重,無法操作業務

2、PING 網段虛位址比如62及兩個實際位址60、61,時斷時續

3、核心交換機S1上到其他網絡影響不大,問題主要集中在區XX局及營業大廳。

4、夜間仍然有丢包問題出現

5、H3C 7503 CPU過高

Slot 1CPU usage:

98% in last 5 seconds

55% in last 1 minute

56% in last 5 minutes

6、R1聯通線路不通(排查過程中發現)

原網絡拓撲圖:

記錄一次區域網路突發網絡環路處理過程——全是血淚

網絡結構相對簡單,辦公網内主要有vlan 3 vlan4vlan5 vlan6,營業廳主要vlan 3,過去整改XX機關的辦公内網全部通過H3C 7503連接配接,核心S1和75之間通過trunk口進行互聯配置;在核心交換機設定了vlan位址,考慮網絡高可用性,使用了virtual-ip,S1的vlan3位址為60,s2的vlan3位址為61,他們的虛拟位址為62,是以vlan3下面的機器的網關都設定為62,其他的vlan也是同樣;

interface Vlan-interface3

ip address x.x.x.60 255.255.255.192

vrrp vrid 3 virtual-ip x.x.x.62

vrrp vrid 3 priority 120

vrrp vrid 3 track 1 reduced 30

S1 trunk接口配置如下:

interface GigabitEthernet1/0/48

port link-mode bridge

port link-type trunk

undo port trunk permit vlan 1

port trunk permit vlan 2 to 4094

其他接入交換機都是通過75上的access方式進行連接配接,配置如下:

interface GigabitEthernet2/0/41

port access vlan 4

interface GigabitEthernet2/0/43

port access vlan 5

interface GigabitEthernet2/0/46

port access vlan 6

初步懷疑可能的原因:

1、網絡環路?

2、病毒攻擊?

3、配置問題?

4、裝置問題?

5、網線問題?

6、其他?

為解決問題調整下網絡并加入主動威脅裝置測試:

記錄一次區域網路突發網絡環路處理過程——全是血淚

為了排除故障,首先做了分析,判斷網絡環路和病毒ARP可能性較高,在核心交換機上部署了主動威脅發現裝置,并将做了端口鏡像,還得自己做呀,就是将75和接入交換機的資料複制一份到S1的g1/0/30,g1/0/30接主動威脅發現裝置資料口。

Mirroring-group 1 local(設定鏡像組)

Mirroring-group 1 monitor-port Gigabitethernet 1/0/30(設定鏡像的目的端口)

Mirroring-group 1 mirroring-port Gigabitethernet 1/0/48 both (設定鏡像的源端口 both為雙向)

抓包進行主動威脅分析,發現威脅比較少截止晚上就幾條病毒攻擊,還有部分ARP風暴,但是量不大。

排錯過程意外發現:

剛開始我認為有時候ping 60通61不通,60不通,61通….是配置有問題,不斷出現vrrp切換,我決定将核心交換S1和核心交換機S2之間的線路斷掉,隻保留一條主線路;但是斷掉之後發現,到網關通,但是到上聯上級機關不通,懷疑R1聯通線路有問題,一看果然R1聯通線路斷掉了,這個發現是意外,後來聯通公司協商上級機關處了解決問題,問題原因是端口協商。

是以懷疑為網絡環路或者裝置有問題可行性大,由于核心交換機S1上其他vlan接的電腦沒有問題(除75上接的之外保護電腦A),是以初步懷疑問題集中在75上。為了便于排錯我們将網絡進行了改造,将其他vlan接入交換機分别接到核心交換S1上,不在連接配接75,而和75并行。

做如下實驗1:

1、将所有接入交換機和75全部在核心交換機s1上拔掉網線

2、依次接入,并将測試電腦B接在測試的交換機下面

3、開始ping vlan 3網關

4、Vlan 4 5 6接入交換機問題很小,電腦B丢包不嚴重(有丢包是因為該筆記本沒有裝準入子產品,導緻準入裝置會發ARP欺騙包,這是後期發現這個問題的管理者同志沒有告訴我)

5、接入75交換機,然後将電腦B接入75上,發現症狀比較嚴重,初步判斷可能是75上的問題

更換裝置實驗2如下

為了排除是裝置故障,拿一個24×××換機進行測試,将線全部網線接上,有問題,特别是接大廳的線路時,非常明顯,判斷問題集中在環路或者線路。

解決環路實驗3如下

首先在75上啟用STP

1、Stp enable

2、dis stpbrief  檢視生成樹

3、發現會有一些變化,但是不明顯,有個接口down但是,問題還在,可能環路不知一處。

%Feb 2117:01:10:856 2014 xx-S1 MSTP/6/MSTP_NOTIFIED_TC: Instance 0's GigabitEthernet x/x/x was notified a topology change.

4、将75上線路全部拔掉,隻留下電腦B,發現ping正常。

5、判定問題在大廳機器有環路,決定去找環,發現大廳網線混亂,有分線的,亂接的,不好排查。

6、關閉大廳的小交換機及HUB

7、放棄找環,決定先應急重新布線,通過巡線儀找到一條到大廳的線路,接在剛才拿的24×××換機上,然後從24×××換機依次在接到大廳機器電腦上,發現ping都是正常的。

8、将大廳40多台機器全部梳理完畢,確定沒有環路,線路正常。

9、梳理機房線路,将75上不用線路全部清理。

10、測試,一切正常。

雖然是次不太複雜的排查過程,也沒有找到具體的環路位置,也沒有複雜的配置和驚心的場面,但是往往是些簡單的問題,給網絡帶來緻命的危險。希望這個過程給大家有幫助!

繼續閱讀