作者:連珣
問題描述及現象
某客戶計劃通過P2V工具遷移500台左右鏡像至阿裡雲華北1(青島),在應用資料遷移傳輸過程中是把使用者的系統盤、資料盤的資料通過公網傳輸到阿裡雲中轉ECS執行個體上。
某客戶6.12-6.13号批量遷移100台基本正常,從2018.6.13号晚10點左右開始連接配接阿裡雲中轉ECS執行個體就出現中斷,現象為在用戶端telnet中轉ECS執行個體8703端口提示Connection closed by foreign host. 但檢查中轉ECS執行個體的http 服務8080正常,而且其它地方測試中轉ECS執行個體8073端口、8080端口服務均正常。
6.20-6.21恢複正常後,繼續批量遷移了130台左右,但6.25号開始又問題重制。
問題處理過程
6.15号
12點左右開始,客戶再次重制問題。
在客戶側telnet 10次都失敗了,在阿裡雲ECS側(47.104.79.200,i-m5ecitgdpobfwwrzb6bm)抓包如上rsync_server.cap。同時在其它地方telnet 正常。

和客戶修改傳輸端口為8702測試了一下,telnet 10次全部成功,換回8703就不行了。這個跟網絡營運商一貫的封端口的手法很類似,應該是端口被記錄并限制了。
6.25号
客戶臨時改端口方案也行不通了,修改了2次端口都是傳了一部分之後就被強制斷開了,報一樣的傳輸錯誤。但是在其他地方telnet中轉ECS測試傳輸正常。
6.26号
20:30分-22:00分 遷雲專家服務團隊進入排障
1)從曆史抓包資訊來看,初步判斷是安全政策或網絡品質導緻請求逾時。
注:關于TCP的幾個FLAGS字段辨別,我這裡簡單介紹一下,有興趣深入了解的可以自行百度查相關材料,大概含義是:
SYN表示建立連接配接,
FIN表示關閉連接配接,
ACK表示響應,
PSH表示有 DATA資料傳輸,
RST表示連接配接重置。
2)同時,從客戶回報的網絡架構環境來看,客戶網絡環境部署了一些DDOS、FW等的安全防護的裝置。
3)重新啟動遷移任務進行測試,此時段網絡傳輸正常。
22:10分-23:00問題重制
1)從客戶回報的出口監控流量上看已經達到了帶寬上限200M。
2)客戶側通過檢查FW上的log日志暫未發現異常資訊。
3)由于時間關系,總結并計劃第二天排查的思路:
(1)請XXX客戶資料中心部門畫一下目前的網絡拓撲圖,明天和阿裡雲專家一起開會介紹。
(2)請XXX客戶資料中心部門和營運商确認:如果超過了目前購買的200M帶寬,營運商會如何處理?協調讓營運商取消限制進行一次測試。
(3)後續遷移,啟用遷移工具限流,設定總流量不超過100M。
(4)請XXX客戶資料中心部門,将遷移時的3個随機IP(NAT出去的外部位址)修改為1個,然後進行測試。
6.27号
10:10 了解客戶環境
按昨晚計劃的排查思路,客戶介紹網絡環境,從中了解到客戶IDC部署了流量清洗AntiDDoS裝置、鍊路負載均衡F5、H3C M9006防火牆裝置等。大緻的網絡環境如下所示:
10:20 檢視日志
檢視AntiDDoS、M9006日志、政策等,均未發現異常資訊。
10:30 切換線路
将原來的移動線路切換至聯通線路,将SNAT設定為一個公網IP X.X.X.62,同時将帶寬限流為20M進行遷移測試,此時P2V遷移工具傳系統盤、資料盤均正常。
11:00 問題重制
源伺服器測試:
其它公網環境:
12:00-15:00 問題範圍定位
1)在客戶網絡環境網際網路區最外層跟營運商對接互聯的華為C6850裝置上設定聯通問題IP(X.X.X.62),也即是原來SNAT設定的公網IP。測試此時聯通線路是否正常的.排除定位是聯通線路問題還是企業内部網絡問題,把範圍定位.
2)在C6850 測試8703端口不通,但可以通路外部網絡,跟源遷移伺服器情況一緻,基本可以判斷此異常問題跟客戶網絡環境無關。
15:30 更換SNAT公網位址
更換SNAT公網位址測試8703端口通過,即将聯通外網IP X.X.X.62更改為X.X.X.60).基本上可以确定客戶的X.X.X.62 8703端口被上遊營運商、雲廠商封堵或攔截。
7、總結并計劃明天下一步的排查思路:
1)阿裡雲網絡排查,聯系“網絡營運服務台”協助定位。
2)阿裡雲安全政策排查,聯系阿裡雲安全同僚。
3)切換電信線路進行複盤遷移測試(移動、聯通線路均已測試且都能重制同樣的問題出來,但為了讓客戶更加積極配合我們進行排查問題,故繼續又選電信線路進行測試,盡管理論上三家營運商同時封端口的機率很低)。
6.28号 問題解決
1)09:30 咨詢阿裡雲-安全部李XX,從描述的現象看很像是安全攻擊。
2)10:30 聯系阿裡雲-安全部陳XX,陳XX通過安全營運平台檢視到攔截資訊。
3)12:30阿裡雲-安全部陳XX把客戶的公網IP添加為白名單後問題解決。
影響範圍
資料遷移中斷,影響項目正常進行。
問題結論
安全政策:本次資料遷移網絡異常主要是命中了阿裡雲的“防惡意攻擊的安全政策”。
觸發場景:在短時間内的大批量臨時的ECS消耗(建立到釋放)場景可能會觸發。