天天看點

看DLI服務4核心如何提升雲服務自動化運維

摘要:今天我們來說說DLI是如何實作監控告警來提升整體運維能力,進而為客戶更好的提供Serverless的DLI。

DLI是支援多模引擎的Serverless大資料計算服務,免運維也是其作為Serverless雲服務面向客戶時的一個重要的特性。那麼對于服務本身我們是如何實作整個服務的運維呢?今天我們來說說DLI是如何實作監控告警來提升整體運維能力,進而為客戶更好的提供Serverless的DLI。

看DLI服務4核心如何提升雲服務自動化運維

上圖是DLI服務的整體部署架構,作為Serverless服務其全面擁抱雲原生技術,無論是對外提供任務管理的微服務還是最終執行任務的計算單元,其都是基于Kubernetes來部署,這也更好的實作了Serverless的快速彈性伸縮。

對于DLI服務的監控告警我們目前主要從以下幾個方面來考慮:

1.全局次元,主要是整體API的QPS、成功率和響應時延

DLI作為Serverless大資料計算服務,其對外均以REST API的形式提供服務,是以API的QPS和響應時延直接反映了服務對外的能力,而成功率更是服務SLA的直接展現。

2.OS次元,主要是容器宿主的CPU使用率、記憶體使用率、磁盤使用率、上下行流量

無論部署的架構、技術如何演進,對基礎資源的監控都是最基本和必須的。

3.容器次元,主要是CPU使用率、記憶體使用率、K8s空間和使用者空間使用率、POD的健康度

容器是虛拟機的演進,是以對于容器的資源監控也是最基本的。我們的微服務或計算單元都是以容器運作在Kubernetes叢集上,是以對于POD的健康狀态的監控也是必須的。

4.微服務次元,主要是流量、性能、健康檢查和關鍵日志等

監控是為了更好的發現和解決問題,是以核心還是業務層面的監控。DLI是一個複雜的分布式Serverless應用,其内部根據不同領域模型又分為不同的微服務,是以對于微服務内部的流量、性能等的監控則是衡量各微服務可靠性的重要名額。一個好的系統往往有完善的日志體系,通過對關鍵日志進行監控則能夠幫助我們快速發現和定位問題,是以這也是我們在業務次元的監控上的重點。

上述幾個方面的監控,是我們實作雲服務自動化運維的一些關鍵步驟,通過這些我們能夠做到更好的先于客戶發現問題,保障服務SLA。當然這些遠遠不夠,正所謂“路漫漫其修遠兮,吾将上下而求索”,更加自動化、智能化的運維才是Serverless服務的目标。

點選關注,第一時間了解華為雲新鮮技術~