8月30-31日20:00-21:30,一場别開生面的技術大會—— “螞蟻金服&阿裡雲線上金融技術峰會”将線上舉辦。本次将聚焦資料庫、應用架構、移動開發、機器學習等熱門領域,幫助金融業技術開發者深入解析網際網路應用的前沿應用與技術實踐。
來自阿裡雲的技術專家田英鶴(花名:喜樂) ,将在本次峰會中為大家帶來《雲資料庫系統容災架構設計和實戰》的分享,下面是議題詳情,供大家參考。
議題名稱:《雲資料庫系統容災架構設計和實戰》
議題簡介: 本次演講向大家介紹雲資料庫的高可用容災方案設計。在各種架構,部署條件下,如何最大程度的保證系統的連續性及資料可靠性。主要包括執行個體健康檢測方法,參數配置,執行個體故障切換方案及機房容災方案。通常來講,資料庫的高性能及高可靠往往不可兼得,在執行個體的ha配置政策上,對于高可用優先和高可靠優先兩種方案前提下,如何進行資料庫配置及如何制定高可用切換方案。
在雙節點架構的高可用配置下,如何保證資料連續可服務及性能;在可靠性配置下,系統如何優先保證資料的可靠和一緻性。在三資料節點部署條件下,如何能夠更好的保證資料的可用性及可靠性。在機房容災上主要介紹雙機房及三機房的跨機房部署條件下,單個機房或網絡故障後可以有哪些資料庫的容災方案。對于以上的容災場景,也會特别的提到阿裡雲資料庫技術組在這方面所做的工作和努力。
聽衆收益:
1)了解常見的資料庫容災方案,熟悉原理後更好的設計應用系統的容災方案
2)收獲用戶端配置建議,能夠更好的了解和減少資料庫切換對應用帶來的影響
關于分享者: 田英鶴(花名:喜樂),阿裡雲資料庫技術專家,主要從事阿裡雲資料庫服務系統的架構設計及研發。該系統目前支撐了公有雲逾萬級執行個體每日逾萬次的日常自動化運維服務,設計的資料庫高可用系統支援了mysql,pgsql,mssql等逾萬級線上執行個體7*24小時不間斷服務。對雲計算,大規模并發系統有7年以上的系統架構設計及研發經驗。
<b>以下為本次采訪内容:</b>
<b>雲栖社群:請介紹下你及相關工作經曆。</b>
喜樂:我是2010年碩士畢業後加入阿裡巴巴淘寶網,在營運支撐部工作,主要負責淘寶網服務中心,智能機器人搜尋引擎相關工作,2013年加入阿裡雲資料庫技術組,主要負責資料庫管控服務系統的開發和項目管理工作。
<b>雲栖社群:能否分享下阿裡雲資料庫服務系統的架構演變過程,以及所遇到的挑戰。</b>
喜樂:資料庫服務系統從2013年支撐數千執行個體級别到2016年支撐數以萬計的執行個體,從支撐mysql、sqlserver引擎到支援redis,mongo,pgsql/ppas,petadata等引擎,的确從系統架構上,從資料庫多種結構上變化很大,對原系統進行了大規模的功能拆分及服務化,從原來僅支援自動化運維任務到目前資源管理,監控,全自動上下線主機,遷移,計費等産品功能日漸豐富。
當然,中間也遇到很多挑戰,比如如何支援多機型,支援多種引擎,存儲架構,我們将衆多引擎的共性及差異性逐漸分離,抽象,使得接入新引擎成本更低,将基礎代碼,方法維護得更加健壯,使得整個服務系統更加順滑,可監控,出現問題可及時修複。當然,最大的困難就在于在人力不大幅增加的條件下,如何在快速響應新業務的同時,對現有管控進行深度的優化,重構,使得我們跑的快,跑的穩。
<b>雲栖社群:高可用性是雲資料庫首要解決的問題,在架構設計上你們是如何設計的?對設計中遇到的技術難點都是如何解決的?</b>
<b>喜樂:</b>雲計算條件下要同時管理數以萬計的資料庫,架構上我們在原來資料庫基礎運維經驗的背景下,通過參考和借鑒集團和行業内其他廠商和資深專家的過往經驗,再結合我們自己開發條件,逐漸完善起來的。
設計中對不同引擎,不同資料庫的政策是各不相同的,我們的優勢是系統開發同學和各資料庫核心同學都在一個大團隊下,是以難點攻關上,我們團隊的管控服務同學和核心同學通力合作,共同克服了一個個工程問題,也通過線上上不斷的實踐,總結,再實踐一步一步走過來的。
<b>雲栖社群:你是如何在雲資料庫高性能和高可靠之間進行平衡的?</b>
<b>喜樂:</b>首先,成本,性能,資料可用性,可靠性對不同應用要求是不一樣的,即使是金融行業的應用由于使用場景,業務不同,那麼也會對這些點要求不同,那麼我們充分考慮各種需求,給應用提供了更多的選擇及建議,使得應用在各項名額間尋找到一個平衡點,都能找到适合自己的資料庫部署結構及高可用政策。這個能力我們認為在市場中是很必要的。
<b>雲栖社群:據了解,阿裡雲資料庫系統目前支撐了公有雲7w+執行個體每日2w+次的日常自動化運維服務,設計的資料庫高可用系統支援了mysql,pgsql,mssql等7w+線上執行個體7*24小時不間斷服務,是以在雲資料庫健康檢測上,是否有什麼檢查機制?</b>
<b>喜樂:</b>我們對檢查政策及實際的檢測結果做了更加細緻的區分,除了常見的程序crash,當機,網絡中斷,對資料庫卡慢的情況,也通過核心改造,提供内部運作資料,結合主機資料進行實時分析和計算,來決定是否需要failover,這樣可以給使用者和應用提供更好的使用者體驗。目前,我們也還在不斷的完善和改進,這是一個不斷深入的過程。
<b>雲栖社群:你認為優秀的雲資料庫架構設計應包含哪些要素?</b>
<b>喜樂:</b>架構上應該提供更加靈活的部署方式,配置方式及高可用政策,同時也要提供專家級的建議,在架構決策上給使用者提供盡可能價格合理,性能比對,容量合适的雲資料庫基礎設定,穩定性,性能,成本,體驗四個方面應該是衡量一個雲資料庫産品架構最重要的幾個方面。
<b>雲栖社群:在本次技術峰會上,分享這個議題主要是基于什麼考慮?另外,你認為什麼樣的聽衆适合聽這個分享?</b>
<b>喜樂:</b>對資料庫有基本的運維或者使用經驗,想了解資料庫架構設計,特别是資料庫容災設計的同行。
<b>雲栖社群:生活中,你還會做哪些有意義的事?</b>
<b></b>
<b>喜樂:</b>關注失學兒童及教育,希望能夠盡一些綿薄之力。