<b>議題名稱</b>:《雲資料庫超大流量峰值保障最佳實踐》
<b>議題簡介</b>:本次演講收集整理了自rds成立至今,在曆次大流量峰值中如何保障活動中雲資料庫備戰的最佳實踐,包括之前的改造,壓測和擴容;期間的監控,預案執行和應急處理;之後的收容和總結。力求全鍊路地幫助客戶安全穩定地渡過超大流量峰值,讓在你備戰過程中少走一些彎路,多一些從容。
聽衆收益:
1)了解曆次超大流量峰值時雲資料庫備戰保障中出現過程的問題;
2)掌握曆次超大流量峰值時雲資料庫備戰保障的最佳實踐
<b>關于分享者</b>
羅龍九(花名:玄慚),阿裡雲dba專家,有着豐厚的dba經驗,經曆阿裡曆年雙11考驗,負責阿裡雲rds線上穩定以及專家服務團隊,積累了6年對阿裡雲資料庫使用者的運維、調優、診斷等豐富的經驗。
<b>采訪正文:</b>
說到大流量高并發網際網路應用實踐,就不得不提下阿裡雲dba核心專家玄慚。他在資料庫領域,連續4年支援天貓雙11。
其所在團隊的亮眼成績如下:
高峰期間叢集的總qps達到了近300w每秒;
單個商家最高處理訂單的能力超過400萬單;
百萬商家在aliclouddb上穩定運作,全網實作了0故障,0丢單。
這樣的成就,在當初是如何實作技術突破的?
“2012年雙11備戰,記憶猶新。雙11的前一個月,阿裡雲資料庫團隊白天要準備資源和雙11所有工作,夜裡還需要協助使用者将資料庫遷移上雲。彈性更新需要對執行個體逐個進行更新,商家的資料庫也需要逐個進行優化,并為商家提出優化建議。天貓雙11能否扛過零點高峰?我的心裡是打鼓的,但結果讓我們深受鼓舞,完全ok。”在采訪中,玄慚說。
他說,2013年主要是指數增長和資料鍊路改造遷移。“2013年是阿裡雲資料庫支撐雙11商家背景核心資料庫的第二年。其承擔了天貓50%的訂單量。如果用一個關鍵詞來形容2013年的雙11,那就是變化。第一年雙11執行個體規模量不是很大,然而2013年的雙11執行個體數規模則是成指數級别增長。原來的資料通路鍊路層的容量已經不能再支援如此規模的使用者量。是以我們開始對資料鍊路通路層進行改造遷移。改造遷移過程的時間點與雙11的備戰時間點重合,由此觸發了非常多的變化,給雙11的備戰工作造成了很大的壓力。一路拼搏,終于在雙11之前把鍊路架構穩定下來。雙11當天,記憶尤深的是下午6點左右出現的驚心動魄的場面。由于一個使用者發送了超大長度的sql到阿裡雲資料庫,同時由于proxy本身問題,是以整個proxy叢集出現異常。雖然問題很快得到了處理,影響可控,但給我們敲響了警鐘——2014年要重點把資料鍊路中間層穩定下來。”
“2014年的雙11,阿裡雲資料庫在經曆了兩年的成長期之後開始迎來成熟。汲取了2013年資料鍊路改造的慘痛教訓,我們在雙11前統一了所有叢集的資料鍊路通路。在支援靈活資料鍊路通路模式,高安全鍊路通路模式下,實作了sql注入的攔截功能,幫助使用者更簡單地防護資料庫的安全,避免資料庫被注入攻破。雙11當天表現平穩。承擔了天貓96%的訂單量。叢集qps峰值達到142w。叢集rds執行個體數也達到了曆史新高。”2014年是已經趨于穩定的一年,玄慚點評到。
“2015年叢集的規模越來越大,雙11我們為叢集預備了2-3倍容量資源供使用者彈性更新使用。為了使新上線的機器得到資源最大化利用,以保障系統的穩定,需要将老機器上的執行個體離散到新機器上。同時雙11活動完後我們需要把這一批擴容的主機下線,将其補充到其他業務叢集進行售賣,以實作資源使用率最大化。針對上面的兩個應用場景,rds啟動了移山項目。移山離散政策着力于對主機以及執行個體最近的性能資料進行計算,得出需要遷移離散的執行個體清單。移山收容政策則對叢集和主機的性能資料進行計算,進而得出需要收容的主機執行個體清單。”
這四年的雙十一支援,也讓他沉澱下來不少經驗。
他認為,安全和穩定是一個全鍊路的事情,從客戶的應用端通路,到中間鍊路層,最後到底層的資料存取,要建構一個安全和穩定體系十分複雜。“以apsaradb mysql安全能力的建構思路與方法,安全的問題需要從事前、事中、事後三個時間軸,以及存儲層、網絡層、通路層、應用層四個層面,立體化地建構解決方案。于企業而言,不同的資料需要不同安全政策。”
在穩定性上,玄慚補充到:“複雜的系統的穩定運作離不開兩個必不可少的系統,即全鍊路的監控系統和巡檢系統。”巡檢系統幫助你把系統各個元件日常運作過程中出現的問題暴露處理,把問題消滅在萌芽階段,防範于蔚然,巡檢規則需要你不斷地去完善,這需要一個過程;全鍊路監控系統幫助管理者能夠清晰地判斷問題出現在那裡,系統的各個部件清晰地展示在你的面前,當問題發生時候能夠快速定位問題,降低故障出現的時間。他認為,特别是在複雜的系統中,有十幾二十多個部件,沒有全鍊路的監控系統,根本就無法掌控。
而在一名優秀的dba如何修煉上,他認為責任和敬畏心非常重要。
玄慚稱,具備責任心和敬畏心是優秀dba的基礎,“一個企業最寶貴的資産在你手上,必須要具備這些要素。”其次,處理線上的故障時,需要有大心髒去扛住外界的壓力,同時還需要細心,讓你在複雜多亂的環境下抓住問題的本質,快速解決問題;“最後,還需要有一個樂于總結分享的心态,我見到很多業界top專家都具備這個特點。”
玄慚在本次技術峰會上分享的是《雲資料庫超大流量峰值保障最佳實踐》議題,該議題收集整理了自rds成立至今,在曆次大流量峰值中如何保障活動中雲資料庫備戰的最佳實踐,包括之前的改造,壓測和擴容;期間的監控,預案執行和應急處理;之後的收容和總結。力求全鍊路地幫助客戶安全穩定地渡過超大流量峰值,讓在你備戰過程中少走一些彎路,多一些從容。
這位經過四年雙十一沉澱的阿裡技術專家還表示,這個議題對開發、運維、dba、架構師都具有非常好的參考指導意義,“當然如果你是一個公司的技術負責人,我也希望你能夠學習。”