天天看点

记一次网络环路引起的大面积网络故障

断网是最严重的网络问题。

尤其对于医院来说,断网意味着医院最基本的挂号、看诊提示、录入病人信息等系统全部都要改为人工,严重影响到了医生治病救人的效率,这可是人命关天的大事。

今天我就遭遇了一起非常严重的网络故障,医院门诊楼所有医生站全部无法连接内网。可造成该网络故障的原因却只是一根网线的拔插。

没错,就是接入交换机二层环路引起的断网事故。

某天下午14点18分,正当我还在享受悠闲的午后,客户突然传来消息,“不好了,医院内网所有医生站,还有一些医生办公室不能上网了,网管系统上有环路告警”,

我说别着急,我先远程看一下。

我一如既往地打开软件准备远程查看故障节点,这时候我却发现,故障节点设备彻底断网了。

“完了,事情严重了,这次的环路影响面积有点大”

于是我马上打了个车赶到了客户现场,第一件事情就是拔掉了出现环路告警接口的网线,此时,部分网络已经恢复正常。剩下的事情,就是找到到底是哪里出现环路了。

但是客户环境比较复杂,没有人记得这一台出现环路的交换机安装在哪里,楼上楼下找了一个小时,但是还是没有找到这台出现环路的交换机在哪里,此时部分的医生站还是无法连接内网,我急了,但是还是得保持镇定,开始根据其他交换机的邻居信息逐级找到和故障节点级联的设备。

没有办法,我把这台出现环路的交换机对端的接口全部关闭,先让这台交换机和内网隔断,然后用和原本和其他交换机级联的网线,接到自己的电脑上远程登录上了故障节点。

终于登录到出现环路的交换机,第一件事就是查看邻居,由于我已经把原本和他级联的设备的接口全部关闭,此时应该是没有邻居信息才对,但是这台交换机上却出现了一个邻居,并且查看详细信息可以发现是一台内网的交换机。

这和我记录的拓扑不一样啊!!

如果按照原有的拓扑,应该只有一台内网交换机与这台交换机级联才对,现在突然多出了一台内网交换机。

找到多出的这台内网交换机后,到对应楼层弱电井一看,发现和故障交换机连接的接口上的网线标签信息是错误的,而且客户现场正在进行搬迁,可能是搬迁过程中有人进行了线路的调整,最后把线给插错了,也没有发现自己插错线了,才造成了这次事故。

这个环路让内网医生站和医生办公室所属vlan形成了二层环路,由于该vlan与互联网的某个网段为复用关系,同时也造成了该网段部分电脑无法上网,好在互联网那端的交换机开启了STP,才没有造成更大的伤亡,只影响了该交换机下接的互联网电脑。

解决了环路,医院的网络也恢复了正常。我才终于放下心来。

最后在这里温馨提示,不要乱插交换机的网线,对了,墙上出来两根网线也不要同时插进路由器的两个lan口,你的一次无心操作可能会给一个无辜的网工造成沉重的心理阴影。

继续阅读