天天看點

AWS事故總結,幾招教你規避風險

美國時間 2 月 28 日,亞馬遜AWS弗吉尼亞州資料中心出現單點存儲區域故障,使得其雲存儲服務 S3 出現了較高的錯誤率,造成長達2小時的服務不可用。Netflix、Airbnb 、Slack、Spotify、雅虎網絡郵箱等網際網路服務受到明顯影響。

亞馬遜的本次『失誤』也在警示業界所有雲計算廠商,在雲服務日益發展的今天,雲存儲的資料可靠性和服務可用性應該如何保障。當企業應對人為誤操作、軟體錯誤、病毒入侵等“軟”性災害和硬體故障、自然災害等“硬”性災害,應該如何實作穩定的容災?如何實作高效的容災?如何實作低成本的容災?

騰訊雲對象存儲服務基于多年海量資料存儲的經驗,針對以上一系列問題,提供五個次元的解決方案:跨地域容災,機房級别容災,叢集級别容災,伺服器級别容災和磁盤級别容災。

目前騰訊雲已經在華北大區,華南大區,華東大區,西南大區和東南亞大區提供了資料存儲服務,并且提供『主備資料中心』的解決方案。

AWS事故總結,幾招教你規避風險

使用者可以選擇将主站的資料服務保留在某一區域,同時在上千公裡之外保留備份資料,騰訊雲将代替客戶将主資料中心的資料在短時間内自動搬遷到備份資料中心,當發生營運商網絡大規模癱瘓或者大面積災難來臨,使用者可以将服務指向備份資料中心存儲區域,應對異常問題。

騰訊雲目前在每個存儲大區配備了多個可用區,每個可用區之内配備多個機房。每個可用區保證一定實體距離,當發生爆炸,洪水等惡劣的實體情況或者小規模營運商網絡癱瘓,騰訊雲将自動排程資料的寫入和讀取,暫停災難受影響區域的機房使用,保留存量資料不改變。在災難過程中新的資料寫入和讀取,将遷移到同城的其他機房或者臨近城市的機房,整體存儲大區的服務不中斷。同時騰訊雲擁有跨機房跨可用區的資料備援備份能力。

騰訊雲在每一個機房中會配備多個叢集,每個叢集可以提供完整服務,使用者的資料塊被分布在不同叢集的不同伺服器中。如果某個特定叢集失去服務能力,修複方式如同伺服器異常。該叢集整體暫停資料的寫入和讀取,保留異常現場,将資料寫入遷移到同機房的其他叢集中,叢集内部開始自動修複邏輯子產品或者存儲子產品。在修複過程中,使用者可以從其他健康叢集中持續擷取資料,服務持續可用。

第一、騰訊雲利用『條帶化』技術,将多備份的使用者資料分解成多個資料塊均勻放置在不同伺服器之間。第二,叢集的中央子產品會定時巡檢每個伺服器的每塊磁盤的健康程度。第三,一旦檢測出單台伺服器出現異常,會停止對整個叢集的資料寫入,将資料寫入遷移到同機房的其他叢集中,然後叢集内部針對異常伺服器啟動壞盤修複,如果修複失敗,7×24值班的運維人員将人工介入,更換壞盤。在修複過程中,使用者可以從異常叢集中健康的伺服器中持續擷取資料,服務持續可用。

第一,對于儲存在騰訊雲存儲服務中的每個資料塊,騰訊雲都實作了『 RAID 備份』,即一份資料會存在多個副本或者校驗碼。第二,騰訊雲利用底層磁盤的接口将其每個磁盤且分為多個扇區。采取『心跳響應』管理的模式統一管理所有扇區。伺服器的中央子產品會如同如『巡邏員』一般,周期性的巡檢每個扇區的狀态,保證扇區的健康。第三、一旦檢測出部分扇區發生異常,會對停止針對該扇區的寫入和讀取,然後利用備援資料對原有的扇區進行修複。在這個修複過程中使用者仍然可以讀取備援資料,服務持續可用。

資料持久和服務可用是雲服務廠商的生命線,隻有完備的預案才能獲得使用者信賴。騰訊雲對象存儲服務向客戶承諾99.999999999%的資料可靠性和99.95%的服務可用性。基于這五個次元的資料容災解決方案,騰訊雲資料存儲已經向GIF快手,芒果TV,CNTV等多家廠商提供可靠穩定的服務。

此外騰訊雲即将推出離線存儲服務,讓使用者以領先行業的極低成本享受到災備資料的保護。

更多産品詳情,請登陸騰訊雲官網。

相關推薦

【騰訊雲的1001種玩法】跨園區容災,更新不停服——高可用負載均衡叢集實踐

ReactNative For Android 項目實戰總結