天天看點

騰訊雲推出雲原生etcd服務

騰訊雲容器服務tke從2016年提供服務至今,已服務成千上萬企業建構其容器化平台, 一方面,騰訊雲容器團隊在提供容器服務時積累并完善了一套萬級k8s叢集的etcd管理平台,用于支撐騰訊雲容器産品穩定運作,該平台同時也支撐了騰訊内部業務如雲監控,api網關,歡樂遊戲等,另一方面,我們積極參與etcd社群,将我們大規模實踐過程中遇到的問題和解決方案,回報和貢獻給社群,是社群2020年最活躍的貢獻團隊之一。

容器團隊在多次客戶訪談中了解到,很多客戶不想自己運維etcd,期望能夠使用騰訊雲容器服務内部etcd平台的能力和經驗。 是以我們推出了騰訊雲原生etcd服務。

etcd是一個分布式、高可靠的鍵值存儲,可以容忍叢集中部分節點故障,隻要有一半以上節點存活即可對外提供服務。主要用于中繼資料存儲,服務發現,分布式選舉等場景,如kubernetes,coredns等。基于etcd提供的watch機制,可以很友善的實作釋出訂閱等功能。

騰訊雲推出雲原生etcd服務

容器團隊在拜訪客戶時了解到,很多客戶由于對etcd了解程度不夠,導緻在實際使用和運維過程中出現過很多問題。 例如有些客戶使用了v3的api寫資料卻使用了v2的api進行資料備份,還有些客戶因為叢集恢複時參數指定的有問題導緻叢集無法正常重建,進而影響業務恢複,更有甚者,因為自動壓縮參數配置的有問題而頻繁的使用defrag進行碎片整理,還有很多業務因為使用姿勢的問題導緻etcd性能嚴重下降,頻繁leader選舉,間接造成業務不可用,資料丢失等。

此外,使用者自建etcd往往還需要自己再維護一套etcd監控告警系統和備份恢複機制,增加了運維負擔,自建etcd叢集容易疏忽監控和備份機制,往往出了問題之後才後知後覺。雖然目前業界已經有了很多基于k8s的etcd管理方案,一定程度上減輕了運維負擔,如etcd-operator(目前已不再維護),基于helm部署的etcd等,但這些項目在可用性和易用性上并沒有保障,出了問題之後往往更難恢複。

騰訊雲容器團隊目前線上運維了上萬套k8s叢集,後端使用了上千套etcd叢集作為支撐存儲,在保障etcd穩定營運的過程中,我們遇到過很多問題,也是以積累了大量的實踐經驗,并孵化出了一套自動化etcd管理平台:包含完善的監控告警,備份恢複和容災機制,強大的巡檢能力能夠幫助我們進行熱點資料分析,混沌工程幫助我們主動發現一些隐藏的bug,可控的變更和更新機制能夠讓我們針對問題版本進行快速更新。

目前我們已經在騰訊内部為多個業務團隊提供etcd服務,保障業務快速上線和穩定營運。 為服務更多客戶,我們推出了雲原生etcd産品服務,将我們内部的能力提供出來,衷心期望能夠幫您解決etcd的運維負擔。

騰訊雲容器團隊提供的雲原生etcd服務可以幫助您:

一鍵部署經騰訊内部大規模驗證的高可靠高性能etcd叢集,支援跨可用區容災能力、專業團隊為您提供最優化的性能配置。

內建雲原生監控能力,提供完善的監控和告警機制

提供etcd日常運維管理能力:

備份恢複:支援自動備份和手動備份、災難情況可以選擇從備份恢複叢集

配置升降、叢集擴縮容:借助騰訊雲上計算存儲資源,您可以友善快速調整etcd叢集配置和節點個數

etcd版本更新:幫助您快速安全地跟進社群bugfix版本更新,版本上線前會經過内部大規模場景驗證,避免因etcd自身bug造成隐患。

騰訊雲推出雲原生etcd服務

除原生名額外,內建雲原生監控還同時支援擴充的巡檢名額,如資料一緻性巡檢,叢集健康探測,業務寫qps巡檢等。

騰訊雲推出雲原生etcd服務
騰訊雲推出雲原生etcd服務
騰訊雲推出雲原生etcd服務

您可以在騰訊雲容器服務控制台一鍵建立高可靠,高性能etcd叢集, 即可在幾分鐘内啟動一個可投入生産的etcd叢集。底層資源基于k8s部署,通過operator進行管理,支援将節點打散到不同的可用區,在3個可用區的情況下,單可用區挂掉不影響叢集正常服務,節點挂掉之後可以快速自愈,最大程度降低不可用時間。資料持久化存儲于騰訊雲雲硬碟,具備多副本的容災能力。您不需要過多關注etcd的各項複雜參數,我們會根據您的叢集配置,自動适配到合适的參數配置。

騰訊雲推出雲原生etcd服務

支援開啟https雙向認證及鑒權,資料通路更加安全。支援通過安全組來限制通路來源。

您可以在控制台建立叢集時或叢集建立完成後設定etcd的備份政策,支援定時的将資料備份到騰訊雲對象存儲cos服務,您也可以手動來觸發備份。在叢集資料異常需要復原的情況下,可以通過cos備份來恢複叢集。

無縫對接騰訊雲原生監控服務(托管prometheus服務),預設提供您需要關注的各項性能名額和可用性名額,您也可以自行聚合需要的監控名額和面闆,幫助您更好的監控etcd叢集狀态。

除預設的監控能力外,我們額外提供了熱點資料分析和慢查詢分析能力,可以幫助您更好的分析異常請求來源,及時發現問題并進行優化。

雲原生etcd服務的高可靠性讓您可以放心将資料放在雲端,無需擔心資料丢失,也簡化了傳統運維工作中為保障資料高可靠帶來的額外工作量和額外的 it 投入成本。

版本上線前會經過完善的内部測試和大規模驗證,通過混沌工程進行故障演練,保證版本的穩定性。

您無需關心雲原生etcd服務的安裝、部署、版本更新及故障處理,容器團隊為您免除後顧之憂。

我們誠摯邀請您參與騰訊雲原生etcd服務的内測, 您可以通過以下連結送出内測申請:https://cloud.tencent.com/apply/p/deks64tn14b

《三年之久的 etcd3 資料不一緻 bug 分析》

《萬級k8s叢集背後etcd穩定性及性能優化實踐》

繼續閱讀