天天看點

【故障公告】阿裡雲 RDS 資料庫伺服器 CPU 100% 造成全站故障

非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿裡雲 RDS 資料庫伺服器突然出現 CPU 100% 問題,造成全站無法正常通路,由此您帶來了很大的麻煩,請您諒解。望着今晚被狂風暴雨突襲後一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,我們一直在努力建設園子,但今天的故障又告訴我們,沒那麼容易,我們的努力還不夠,我們别無選擇,唯有更加努力。

【故障公告】阿裡雲 RDS 資料庫伺服器 CPU 100% 造成全站故障

github 故障公告連結:https://github.com/cnblogs/coder-service/issues/106

後續故障公告:更新阿裡雲 RDS SQL Server 執行個體故障經過

非常非常抱歉,今晚 19:34 ~ 21:16 園子所使用的阿裡雲 RDS 資料庫伺服器突然出現 CPU 100% 問題,造成全站無法正常通路,由此您帶來了很大的麻煩,請您諒解。

故障經過是這樣的。19:34 這個時間點本來是一個通路低峰,資料庫壓力比通路高峰時低很多,但資料庫伺服器卻異想天開、吃飽了撐着地讓自己的 CPU 滿負荷工作(到現在我們都沒想通,難道是伺服器晚飯吃多了想幫助消化?)。開始我們以為是某個應用引起的,一個一個應用排查與重新開機, 但 CPU 不為所動,依然百分百。接着,我們一邊向阿裡雲送出工單求助,一邊通過阿裡雲 RDS 控制台進行主備切換,雖然控制台顯示切換成功後,但“執行個體可用性”中主備庫資訊無任何變化,實際主備庫切換并沒有成功,絕招也失靈。請阿裡雲幫忙手動進行主備切換,但阿裡雲操作後回報由于資料庫通路壓力大,手動也切換不過去,建議我們重新開機執行個體。最終,我們決定重新開機執行個體,重新開機執行個體後一切恢複正常。是的,就是用最笨的方法——重新開機——解決了問題,在故障期間我們采取的所有措施都是徒勞,讓人哭笑不得。

望着今晚被狂風暴雨突襲後一片狼藉的園子,心中說不出的難受和愧疚。真的很抱歉,我們一直在努力建設園子,但今天的故障又告訴我們,沒那麼容易,我們的努力還不夠,我們别無選擇,唯有更加努力。

【更新】

00:22 開始将阿裡雲 RDS 執行個體從 SQL Server 2008 R2 更新至 2016

6:20  資料庫更新完成

更新後大量資料庫查詢逾時,正在緊急進行中。

9:20 更新後大量 SQL 需要編譯,RDS 執行個體的 CPU 一直居高不下,由于阿裡雲 RDS 控制台中資料庫執行個體一直處于“主備庫切換中”狀态中,即使想更新 CPU ,現在也無法進行。

【故障公告】阿裡雲 RDS 資料庫伺服器 CPU 100% 造成全站故障

9:50 從早上 8:50 開始阿裡雲 DBA 就開始重建備庫,“主備庫切換中”狀态要等備庫重建完成才能解除,更新伺服器配置也要等備庫重建完成。

10:29 備庫重建完成,“主備庫切換中”狀态解除。

10:50 準備更新 RDS 配置,但阿裡雲更新配置頁面的計價出現問題,即使配置保持不變,也要1萬多元的費用。

11:05 進行了主備切換。

11:10 主備切換完成後,目前恢複了正常。

繼續閱讀