【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

2021-11-16 17:07:00

非常抱歉，今天下午2點左右開始，部落格站點突然猛增的巨量請求讓k8s叢集的節點伺服器不堪重負，造成網站無法正常通路，由此給您帶來麻煩，請您諒解。當時k8s叢集一共6台node伺服器，2台32核64G，2台8核64G，1台8核16G，1台4核6G，部落格站點一共跑了19個pod，如果不是突然猛增的巨量請求，可以穩穩撐住。

非常抱歉，今天下午2點左右開始，部落格站點突然猛增的巨量請求讓k8s叢集的節點伺服器不堪重負，造成網站無法正常通路，由此給您帶來麻煩，請您諒解。

當時k8s叢集一共6台node伺服器，2台32核64G，2台8核64G，1台8核16G，1台4核6G，部落格站點一共跑了19個pod，如果不是突然猛增的巨量請求，可以穩穩撐住。

但是今天下午的請求排山倒海，比昨天還要高（昨天GA統計的UV超過1000萬，其中有很多異常請求），伺服器CPU們拼盡全力也無法扛住，最終兵敗如山倒。

發現故障後，我們開始加伺服器，一共加了5台伺服器（2台8核64G，1台16核64G，2台4核8G），并逐漸将 pod 切換到新加的伺服器。

剛剛熱身并完成健康檢查的 pod 們從未經受如此的高并發考驗，切換後剛上戰場就倒下的情況頻頻出現，是以，雖然加了足夠的伺服器，但恢複正常需要一個過程，一邊要等新 pod 撐住，一邊發現體力不支的舊 pod 并強制結束，直到 15:30 之後才逐漸恢複正常。

經過初步分析，這些突增的請求多數是非正常使用者的請求，這樣的請求沒有通路熱點，每次請求的 url 不一樣，讓緩存有力使不上。

這次故障就向大家簡單彙報到這。

這次的請求量增幅是我們之前從未遇到過的，我們毫無準備，而且目前k8s叢集還沒實作自動伸縮，我們還需要時間去準備。

【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

繼續閱讀

【故障公告】10:30-10:45 左右 docker swarm 叢集節點問題引發故障

[故障公告] 13:52-14:03，通路量突增，部落格web伺服器CPU 100%

雲計算之路-阿裡雲上：攻擊的受害者，阿裡雲的罪人

故障公告：IIS應用程式池停止工作造成部落格站點無法通路

[故障公告]14:39-15:39部落格站點部分負載均衡遭遇3次20G以上的流量攻擊

【故障公告】極驗驗證碼故障造成無法登入與注冊

【故障公告】SQL語句執行逾時引發網站首頁通路故障

香港喪葬禮儀

【故障公告】資料庫伺服器 CPU 100% 引發全站故障

【故障公告】取代 memcached 的 redis 出現問題造成網站故障（已解決）

【故障公告】沒有龍卷風，k8s叢集翻船3次，投用雙叢集恢複

【故障公告】龍卷風繼續襲擊，伺服器們頑強抵抗

【故障公告】龍卷風來襲：突增的并發請求，撐不住的CPU

【故障公告】1個存儲過程拖垮整個資料庫

【故障公告】k8s 開船記：增加控制艙（control-plane）造成的翻船

【故障公告】周五下午的一次突發故障