天天看點

【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

非常抱歉,今天下午2點左右開始,部落格站點突然猛增的巨量請求讓k8s叢集的節點伺服器不堪重負,造成網站無法正常通路,由此給您帶來麻煩,請您諒解。當時k8s叢集一共6台node伺服器,2台32核64G,2台8核64G,1台8核16G,1台4核6G,部落格站點一共跑了19個pod,如果不是突然猛增的巨量請求,可以穩穩撐住。

非常抱歉,今天下午2點左右開始,部落格站點突然猛增的巨量請求讓k8s叢集的節點伺服器不堪重負,造成網站無法正常通路,由此給您帶來麻煩,請您諒解。

當時k8s叢集一共6台node伺服器,2台32核64G,2台8核64G,1台8核16G,1台4核6G,部落格站點一共跑了19個pod,如果不是突然猛增的巨量請求,可以穩穩撐住。

但是今天下午的請求排山倒海,比昨天還要高(昨天GA統計的UV超過1000萬,其中有很多異常請求),伺服器CPU們拼盡全力也無法扛住,最終兵敗如山倒。

【故障公告】突然猛增的巨量請求沖垮一共92核CPU的k8s叢集

發現故障後,我們開始加伺服器,一共加了5台伺服器(2台8核64G,1台16核64G,2台4核8G),并逐漸将 pod 切換到新加的伺服器。

剛剛熱身并完成健康檢查的 pod 們從未經受如此的高并發考驗,切換後剛上戰場就倒下的情況頻頻出現,是以,雖然加了足夠的伺服器,但恢複正常需要一個過程,一邊要等新 pod 撐住,一邊發現體力不支的舊 pod 并強制結束,直到 15:30 之後才逐漸恢複正常。

經過初步分析,這些突增的請求多數是非正常使用者的請求,這樣的請求沒有通路熱點,每次請求的 url 不一樣,讓緩存有力使不上。

這次故障就向大家簡單彙報到這。

這次的請求量增幅是我們之前從未遇到過的,我們毫無準備,而且目前k8s叢集還沒實作自動伸縮,我們還需要時間去準備。