天天看點

精選案例 | 推動業務能力提升,博睿資料為多雲資源管理添利器

作者:博睿資料
精選案例 | 推動業務能力提升,博睿資料為多雲資源管理添利器

案例概述

中國海油是Bonree ONE的首批正式使用者之一。在Bonree ONE的助力下,中國海油建立了多雲平台的資源管理名額體系,對主機、虛拟主機、網絡、存儲、容器化服務進行動态資源監控,實作雲平台基礎設施資源的可量化配置設定與回收。同時,Bonree ONE助力中國海油建立以業務為中心的應用系統SLO監測機制,為雲上關鍵應用系統的資源消耗、應用可用性、服務品質提供可量化的監控資料,有效提升業務穩定性與運維效率。

掃描下方二維碼

即刻申請免費試用賬号

背景分析

一、雲平台資源龐雜,難以從全局視角進行管理

中國海油雲平台經過多年建設,形成了覆寫國内五中心、海外三中心的多雲架構,整體資源數量龐大且複雜,各雲平台資源使用缺乏集中化展示與分析,全局管理難度高;

二、業務資源消耗不清晰,缺乏集中化統計

中國海油雲平台業務整體資源消耗缺乏集中化統計,無法對資源進行合理調整配置設定,難以進行業務ROI分析;

三、閑置資源用量缺乏量化依據,間接造成資源浪費

中國海油各業務系統缺乏曆史業務資源消耗的資料,進行容量申請時缺少資源基準和閑置資源用量的量化依據;

四、系統監控名額體系不統一,缺乏全面的監控

中國海油各業務系統監控名額體系不統一,缺乏系統的全面的監控,難以建立标準的故障分類及資源評估體系;

五、故障定位時間長,跨部門故障追蹤困難

中國海油系統缺乏故障的回溯追蹤能力,偶發故障資料無法留存,導緻複雜故障的診斷定位時間長,影響MTTD(平均故障檢測時間),在跨部門的診斷中,排查工具所生成的名額、資料難以關聯,故障追蹤困難。

應用場景

精選案例 | 推動業務能力提升,博睿資料為多雲資源管理添利器

一、建立統一資源監控體系标準,實作資源标準化分層

博睿資料通過為中國海油建立統一的雲平台資源監控體系标準,實作雲平台的各類資源的标準化分層,并通過對各平台名額資料的采集,形成統一的監控視圖及分析界面。

IaaS層主要包含:主機、虛拟主機、網絡裝置、網絡接口、存儲、檔案系統、系統程序等7類主要實體;

PaaS層主要包含:容器Cluster、Nodes、Workloads、Jobs、Services、Pods、Routes、Images以及雲服務等9類主要實體;

SaaS層主要包含:雲服務、執行個體、應用、MQ、DB、API等6類主要實體。

二、對系統資源用量進行資料采集,定期評估資源使用效率

在博睿資料的助力下,中國海油實作對各業務系統的資源用量資料采集,通過資源名額體系中的實體關系資料關聯各業務系統的資源消耗,實作對各業務系統的資源動态監測及分析報告,定期評估各業務系統的資源使用效率。同時,為主要資源類型建立業務屬性标簽(Tag),以實作各業務系統雲資源用量的動态監測與分攤。

IaaS層的主機、虛拟機、存儲、網絡鍊路;

PaaS層的容器Pods、工作負載、服務,雲服務的請求量;

SaaS層的程序資源用量,遠端API調用量,資料庫調用量。

三、建立容量規劃報告,提高資源使用率

博睿資料通過曆史名額體系資料量化中國海油雲平台的各類容量,以及業務系統的機關業務資源用量,建立雲平台的容量規劃報告、業務系統的容量擴充評估規範,提高雲平台的資源使用效率。

按照各雲平台的Core數量、記憶體容量、存儲容量、網絡帶寬、雲服務請求量,等類型的周期容量進行下一周期的線性與非線性容量預測及建議;

規範業務系統容量申請評估标準,各業務系統進行資源申請時,即時輸出月、季度、半年度資源使用趨勢,并基于機關業務資源消耗進行容量評估。

四、建立SLO監測體系,實作各業務系統全面的可觀測性

博睿資料以VALET模型作為各業務系統SLO監控的統一模型,并通過應用探針采集各業務系統的黃金名額作為SLI(服務水準名額),進而為中國海油建立SLO監測體系。

以部門考核目标為标準,按照VALET模型設定關鍵使用者旅程(Critical User Journey)SLO;

采用錯誤預算的門檻值設定SLO報警,并推送至平台運維人員或業務使用者。

五、增加應用元件名額采集,提升故障診斷能力

将博睿資料ONE平台的應用探針作為ADDP的Agent采集端,在采集調用鍊(Tracing)的基礎上,增加采集了應用元件名額(Metric),提升故障診斷能力。

以業務部門為機關,提供自有應用系統的調用鍊追蹤與分析功能權限,進而提升故障診斷能力;

實作對應用元件調用鍊(Trace)、名額(Metric)、堆棧資訊(Log)的實時采集與留存;

針對異常請求,可實時檢索異常請求在應用系統中所流轉的各元件的名額資料,并通過堆棧資訊對錯誤進行代碼及分析。

六、打破部門資料孤島,提升故障協同診斷效率

通過博睿資料ITIM探針與APM探針資料的集中采集,實作應用和基礎資源的關聯分析,并通過名額體系實作應用、系統等各層級的SLI分層關聯,統一故障診斷的界面入口與資料內建,進而提升故障協同診斷效率。

統一故障協同分析界面,實作應用、服務、接口、方法、執行個體、程序、容器、主機、資料庫的依賴關聯;

通過分布式追蹤能力,實作基于應用、服務、資料庫的實體影響依賴關聯;

通過标準化檢測名額體系,以及實體類型與關系,形成統一的告警事件語言,并通過多種方式進行告警事件的收斂,降低告警備援度。

►►►關于中國海油

中國海洋石油集團有限公司是中國最大的海上油氣生産營運商,主要業務闆塊包括油氣勘探開發、專業技術服務、煉化與銷售、天然氣及發電、金融服務等,并積極發展海上風電等新能源業務。2020年,中國海油在《财富》雜志“世界500強企業”排名第64位,在《石油情報周刊》(PIW)評選的“世界最大50家石油公司”中排名第30位。公司主要經營業績名額在央企位居前列。

精選案例 | 推動業務能力提升,博睿資料為多雲資源管理添利器

繼續閱讀