天天看點

自動定位問題、自動修複故障?托管雲這個功能有點心動​

自動定位問題、自動修複故障?托管雲這個功能有點心動​

使用者業務應用增多,硬體性能跟不上?

雲環境變得複雜,運維工作量不減反增?

運維人力成本日益激增,技術人才越招越少?

——信服雲托管雲的AIOps業務全生命周期持續性保障系統來啦!

幫助企業建構實時、持續的保障體系,覆寫業務全生命周期場景,以多層級時序監控對關鍵名額進行采集與觀測,基于規則預測以及AI預測算法建構故障預測引擎。

同時,圍繞業務全生命周期,建立基于AI技術的全棧預測,分析以及評估系統,完成問題自動定位和自動修複閉環,實作事先風險預防和主動規避,保障業務全生命周期的持續性。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

↑ 業務全生命周期持續性保障系統能力概覽​

一、磁盤故障預測​

通過智能采樣,解決故障磁盤的樣本不均衡問題,并解決時序依賴,自研小樣本場景下基于深度學習的故障預測技術,捕捉相鄰磁盤間的故障傳播的模式,進而實作精準的磁盤故障預測。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

↑ 智能采樣​

二、記憶體ECC預測與隔離

自動定位問題、自動修複故障?托管雲這個功能有點心動​

(1)記憶體ECC告警與隔離​

大量CE報錯會導緻CE風暴,造成系統當機,故需要對其先進行位址隔離,然後更換記憶體條,完成處置閉環。要想做到隔離位址的快速精确,最好是先對高風險CE位址的進行預隔離,進而做到記憶體條實體插槽快速定位,友善運維人員及時更換。另外,還需要采取持久化隔離,避免主機重新開機後隔離失效。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

(2)記憶體ECC預測​

基于機器學習算法,系統對曆史特征進行學習,并進行記憶體失效預測,提前預警,防患未然。其中主要包括基于CE特征預測CE風暴、UE等記憶體故障,基于記憶體性能、電壓等名額評估DRAM健康狀況,使預測結果更準确,降低誤報導緻的物料浪費,預測周期1-2小時。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

↑ CE風險位址關聯分析​

自動定位問題、自動修複故障?托管雲這個功能有點心動​

↑ CE隔離效果​

三、資源預測​

資源預測告警可以展示即将資源耗盡的伺服器組、資源池、虛拟機。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

CPU、記憶體、存儲預測中,可以看到曆史資料和未來趨勢,以及剩餘安全容量、預計多少天後将超過安全容量門檻值、以及建議擴容容量。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

當資源過剩時,也可基于智能算法對閑置虛拟機進行識别,回收對應的資源池或伺服器資源。

自動定位問題、自動修複故障?托管雲這個功能有點心動​

↑ 識别閑置虛拟機​

未來,在故障預測、分析與自愈上,該系統将完善各個業務場景的故障預測分析工作,根據專家經驗的處置決策樹設定自動處置閉環,并基于強化學習優化處置政策。

在識别業務特征上,将識别包含業務性能與不同資源的敏感度、業務特定的最佳實踐方案等。使得業務在故障、亞健康等場景下,能夠準确、快速地定位問題,比如幫助後端運維提前感覺問題,及時更換硬體,避免因硬體問題引發的業務中斷。

另外,在硬體亞健康叢集的分析上,系統可以提供叢集版本更新建議,以及DRS各類排程優化能力,可以更加準确地針對性地對業務進行優化,一定程度上避免資源浪費。

還可根據托管雲硬體故障情況分析硬體故障率,硬體故障變化趨勢等資訊,為硬體導入選型提供事實舉證,并結合硬體故障率在資料中心的分布,給倉儲備件的配置設定提供優化建議。