天天看點

如何快速定位網絡故障?

    昨天晚上把幾台線上交易的網站和背景遷移到另外一個資料中心。本以為這屬于輕量級的遷移。不會出現什麼問題。就讓一個兄弟主導,我負責幫忙打下手。沒有想到,途中出現好幾個問題,看起來很簡單,但讓他很棘手。感覺不可思議。

    從下午5點開始,本以為,滿打滿算2個小時完全可以搞定。當我們把伺服器搬到資料中心,并按照設想的思路配置。結果發現無法從internet通路我們的網站。

     網絡架構我用圖描述一下:

如何快速定位網絡故障?

    網絡架構非常簡單。如果你碰到這個問題,如何快速定位問題? 思路很重要,否則隻能亂忙一整子。

    本來我在邊上看書等他搞定,沒有想到,快7點了,他一直在折騰,我過去看了看,好像他遇到了什麼問題。他欲言又止,面露難色。我問了才知道,碰到上面的問題了。一直在嘗試解決,可是目前還沒有頭緒。

    如果是你遇到這個問題,想好如何定位問題了嗎?如果想好了,就繼續看.

    我的排故過程,也許你的方法和我的不盡相同,但思路大體一緻。

    1、在和web伺服器相同的網段中接入筆記本電腦,修改本地hosts檔案,使用浏覽器通路網站。結果是可以正常通路。這步說明web伺服器web服務已經正常啟動,基本沒有問題。本來就不應該有問題,因為就是搬個地方,ip位址也沒有變動。

    2、在a10負載均衡上(就是一幫f5的人出來單幹開發的。成本效益要比f5高)。測試a10和web伺服器連通性。ping是ok的。telnet web伺服器的80端口也是ok的。基本說明a10到web伺服器之間的網絡通路時正常的。

    3、測試a10和asa5520之間的網絡連通性,使用ping就可以了。結果是ok的,但穿過a10到後端的web服務怎麼樣呢?由于asa5520上沒有telnet指令,就在a10和asa5520之間接入筆記本,還是修改host記錄,通路網站。結果是ok的。說明a10和asa5520之間的網段到内部的web伺服器是ok的。

    4、測試a10裝置和防火牆之間的連通性。直接使用ping指令。發現不通。檢視路由表,防火牆和a10都有直連路由。在交換機上确認vlan。發現a10連接配接的端口不在一個vlan中。修改。再測試ok。

    4、把筆記本接入到防火牆外網口上,修改host記錄。再通路web伺服器,結果是failure。在防火牆上檢視static清單,發現web伺服器位址寫成a10後面web伺服器的真實ip了(因為a10啟用nat動能了,是以正确的應該填寫a10外網ip位址)。修改後再測試通路web伺服器。結果ok。

    5、檢查公網dns伺服器a記錄解析,ping web伺服器公網域名,發現dns解析是正确的。

    6、在internet上通路web伺服器,結果還是不行。

    到這裡,總共差不多5分鐘時間,你知道原因是什麼了嗎?

    故障現象是從internet無法通路web伺服器,而現在直接從防火牆的外網口是可以通路web伺服器的。

    如果看到這裡還沒有搞清楚,那真的要好好學習網絡基礎知識了。其實原因是我們的聯通公網ip位址的80端口被關閉了。趕緊打電話給聯通,一問才知道,線路在遷移過程中,線路的配置被恢複到預設狀态,也就是80端口預設是關閉的,即使ip位址不變更。

    其實網絡故障排除,把網絡想象為自來水管道。分段逐級查找原因,按部就班就很容易解決問題。不要亂猜測是什麼問題,東一頭,西一頭。很容易把自己思緒搞亂。

   期間還碰到另外兩個問題:

   1、esx伺服器直連華為s5700交換機,ping vlan 30接口ip不通。

   原因:esx網卡啟用trunk,在調試配置時,誤把伺服器連接配接交換機的接口配置設定給了vlan31。而沒有配置為trunk接口。

   2、防火牆連直連華為s5700的vlan 31,ping vlan 31接口ip位址不通。

   原因:華為的交換機接口命名不同。我們的小夥子本 以為連接配接的是g0/0/1(用習慣了cisco),就插在了第一排,左邊第一個接口。可是,華為的第一排,左面第一個口是2号口。浪費不少時間。

繼續閱讀