天天看點

應用資料遷移網絡異常案例分析問題處理過程

作者:連珣

問題描述及現象

某客戶計劃通過P2V工具遷移500台左右鏡像至阿裡雲華北1(青島),在應用資料遷移傳輸過程中是把使用者的系統盤、資料盤的資料通過公網傳輸到阿裡雲中轉ECS執行個體上。

某客戶6.12-6.13号批量遷移100台基本正常,從2018.6.13号晚10點左右開始連接配接阿裡雲中轉ECS執行個體就出現中斷,現象為在用戶端telnet中轉ECS執行個體8703端口提示Connection closed by foreign host. 但檢查中轉ECS執行個體的http 服務8080正常,而且其它地方測試中轉ECS執行個體8073端口、8080端口服務均正常。

6.20-6.21恢複正常後,繼續批量遷移了130台左右,但6.25号開始又問題重制。

問題處理過程

6.15号

12點左右開始,客戶再次重制問題。

在客戶側telnet 10次都失敗了,在阿裡雲ECS側(47.104.79.200,i-m5ecitgdpobfwwrzb6bm)抓包如上rsync_server.cap。同時在其它地方telnet 正常。

應用資料遷移網絡異常案例分析問題處理過程

和客戶修改傳輸端口為8702測試了一下,telnet 10次全部成功,換回8703就不行了。這個跟網絡營運商一貫的封端口的手法很類似,應該是端口被記錄并限制了。

6.25号

客戶臨時改端口方案也行不通了,修改了2次端口都是傳了一部分之後就被強制斷開了,報一樣的傳輸錯誤。但是在其他地方telnet中轉ECS測試傳輸正常。

6.26号

20:30分-22:00分 遷雲專家服務團隊進入排障

1)從曆史抓包資訊來看,初步判斷是安全政策或網絡品質導緻請求逾時。

應用資料遷移網絡異常案例分析問題處理過程

注:關于TCP的幾個FLAGS字段辨別,我這裡簡單介紹一下,有興趣深入了解的可以自行百度查相關材料,大概含義是:

SYN表示建立連接配接,

FIN表示關閉連接配接,

ACK表示響應,

PSH表示有 DATA資料傳輸,

RST表示連接配接重置。

2)同時,從客戶回報的網絡架構環境來看,客戶網絡環境部署了一些DDOS、FW等的安全防護的裝置。

3)重新啟動遷移任務進行測試,此時段網絡傳輸正常。

22:10分-23:00問題重制

1)從客戶回報的出口監控流量上看已經達到了帶寬上限200M。

應用資料遷移網絡異常案例分析問題處理過程

2)客戶側通過檢查FW上的log日志暫未發現異常資訊。

應用資料遷移網絡異常案例分析問題處理過程

3)由于時間關系,總結并計劃第二天排查的思路:

(1)請XXX客戶資料中心部門畫一下目前的網絡拓撲圖,明天和阿裡雲專家一起開會介紹。

(2)請XXX客戶資料中心部門和營運商确認:如果超過了目前購買的200M帶寬,營運商會如何處理?協調讓營運商取消限制進行一次測試。

(3)後續遷移,啟用遷移工具限流,設定總流量不超過100M。

(4)請XXX客戶資料中心部門,将遷移時的3個随機IP(NAT出去的外部位址)修改為1個,然後進行測試。

6.27号

10:10 了解客戶環境

按昨晚計劃的排查思路,客戶介紹網絡環境,從中了解到客戶IDC部署了流量清洗AntiDDoS裝置、鍊路負載均衡F5、H3C M9006防火牆裝置等。大緻的網絡環境如下所示:

應用資料遷移網絡異常案例分析問題處理過程

10:20 檢視日志

檢視AntiDDoS、M9006日志、政策等,均未發現異常資訊。

應用資料遷移網絡異常案例分析問題處理過程
應用資料遷移網絡異常案例分析問題處理過程
應用資料遷移網絡異常案例分析問題處理過程
應用資料遷移網絡異常案例分析問題處理過程

10:30 切換線路

将原來的移動線路切換至聯通線路,将SNAT設定為一個公網IP X.X.X.62,同時将帶寬限流為20M進行遷移測試,此時P2V遷移工具傳系統盤、資料盤均正常。

11:00 問題重制

源伺服器測試:

應用資料遷移網絡異常案例分析問題處理過程

其它公網環境:

應用資料遷移網絡異常案例分析問題處理過程

12:00-15:00 問題範圍定位

1)在客戶網絡環境網際網路區最外層跟營運商對接互聯的華為C6850裝置上設定聯通問題IP(X.X.X.62),也即是原來SNAT設定的公網IP。測試此時聯通線路是否正常的.排除定位是聯通線路問題還是企業内部網絡問題,把範圍定位.

應用資料遷移網絡異常案例分析問題處理過程

2)在C6850 測試8703端口不通,但可以通路外部網絡,跟源遷移伺服器情況一緻,基本可以判斷此異常問題跟客戶網絡環境無關。

應用資料遷移網絡異常案例分析問題處理過程

15:30 更換SNAT公網位址

更換SNAT公網位址測試8703端口通過,即将聯通外網IP X.X.X.62更改為X.X.X.60).基本上可以确定客戶的X.X.X.62 8703端口被上遊營運商、雲廠商封堵或攔截。

7、總結并計劃明天下一步的排查思路:

1)阿裡雲網絡排查,聯系“網絡營運服務台”協助定位。

2)阿裡雲安全政策排查,聯系阿裡雲安全同僚。

3)切換電信線路進行複盤遷移測試(移動、聯通線路均已測試且都能重制同樣的問題出來,但為了讓客戶更加積極配合我們進行排查問題,故繼續又選電信線路進行測試,盡管理論上三家營運商同時封端口的機率很低)。

6.28号 問題解決

1)09:30 咨詢阿裡雲-安全部李XX,從描述的現象看很像是安全攻擊。

2)10:30 聯系阿裡雲-安全部陳XX,陳XX通過安全營運平台檢視到攔截資訊。

應用資料遷移網絡異常案例分析問題處理過程

3)12:30阿裡雲-安全部陳XX把客戶的公網IP添加為白名單後問題解決。

影響範圍

資料遷移中斷,影響項目正常進行。

問題結論

安全政策:本次資料遷移網絡異常主要是命中了阿裡雲的“防惡意攻擊的安全政策”。

觸發場景:在短時間内的大批量臨時的ECS消耗(建立到釋放)場景可能會觸發。

繼續閱讀