天天看點

運維工具如此割裂,九招幫你統一納管

作者:觀測雲

背景

在運維工具這個江湖中,出現了衆多獨行俠客,各懷絕技,各自為戰。這些開源監控軟體如同武林中的各派門派:SkyWalking 以精湛的追蹤功夫獨步武林;Prometheus 以靈活的告警機制縱橫江湖;ELK 則如同黯然銷魂掌,以卓越的日志分析、資料可視化技能令人歎為觀止。

門派各自捍衛領地,争奪資源,卻忽略了武林大勢。江湖中有人指出,如果這些俠客們能夠攜手共進,共同面對武林變局,必定能夠形成無敵的聯合之勢。

直到江湖中出現了一位俠客,号稱能“以一抵十”,同時擊退 SkyWalking、Sentry、Prometheus、OpenSearch 等各派高手,讓運維團隊從“對運維工具的運維”工作中解放出來,并提升産、研、運團隊的整體效能。

這位俠客便是「觀測雲」,它是一款面向開發、運維、測試及業務團隊的實時資料監測平台,能夠統一滿足雲、雲原生、應用及業務上的監測需求,快速實作基礎設施、中間件、應用層和業務層的可觀測。基礎設施監測、日志與名額管理、應用性能監測、使用者通路監測、可用性監測、系統級安全巡檢、場景和儀表闆等均為「觀測雲」的可觀測解決方案,通過統一的資料采集、全面的資料監控、無縫的關聯分析、自定義的場景搭建、高度的可程式設計性及靈活的成員協作,為使用者提供最迅速、最輕松、最全面、最自由的系統可觀測平台。

筆者今天就給大家分享這樣一個 case:觀測雲用九招幫助某客戶替換掉 5 套監控平台。

客戶個例

該客戶為一家中小型的金融方案提供商,客戶的 DevOps 團隊分為前端、後端、運維等幾個小組,大家各司其職、密切合作,不斷地推出新産品、新功能以滿足業務需求。

根據雙方的兩次技術交流,該客戶向觀測雲團隊回報了監控現狀:前端、後端、運維三個小組使用了 5 個以上運維工具/服務,包括:Sentry、SkyWalking、Prometheus+Grafana、OpenSearch 訂閱服務(AWS)、AWS CloudWatch 等。

顯然,分散的監控帶來了資料割裂,每個小組都用自己的資料來評價系統問題,容易造成“本位主義”,團隊難以對故障/異常的原因快速達成一緻。且數個自建的平台也給運維團隊帶來了較重的運維負擔。

  • 監控分散帶來的諸多問題
運維工具如此割裂,九招幫你統一納管

在與客戶團隊進行充分溝通後,觀測雲提出有信心幫助客戶進行監控整合,替換掉多套開源監控工具。客戶對觀測雲“統一平台,提升團隊整體協同效率”的價值主張非常認可,迅速組織團隊開始進入技術驗證階段。雙方經過為期兩周的交流和互動,實作了全部場景的驗證。

  • 觀測雲的價值主張——統一平台,提升團隊整體協同效率
運維工具如此割裂,九招幫你統一納管

關鍵招數

在為期兩周的驗證過程中,客戶的前端、後端、運維小組一共有 8 位同僚參與了此項工作。最終雙方總結出多個關鍵場景,并成功向客戶的決策層進行了彙報,獲得決策層高度認可。下面跟大家分享一下觀測雲打動客戶的九大招數。

招數 1:主機/容器的監控

在主機和容器監控方面,該客戶原先使用 Prometheus+Grafana 的組合。而觀測雲則是依靠 DataKit 采集器進行主機/容器的對象和名額采集。

l 如果是主機方式,采用一條 sh 語句即可進行一鍵式安裝;

  • 一條指令安裝 DataKit 采集器
運維工具如此割裂,九招幫你統一納管

l 如果是 k8s 方式,則通過 yaml 檔案進行配置。

  • 通過 yaml 檔案管理采集器和對應插件的安裝
運維工具如此割裂,九招幫你統一納管

當安裝完 DataKit ,主機/容器的對象屬性、名額即可展現在觀測雲上。觀測雲提供了蜂窩圖等看闆,通過顔色來展示主機/容器的健康度,友善客戶在大量基礎設施的情況下快速對亞健康的主機/容器進行分析。

在 DataKit 安裝時可以選擇開啟 ebpf 采集器,以實作基礎之間的網絡通信分析,客戶可以觀察到 TCP 重傳、時延等情況,充分了解叢集内的網絡狀況。

  • 主機/容器的監控
運維工具如此割裂,九招幫你統一納管

招數 2:AWS 各服務監控

客戶的基礎設施均部署在 AWS 上,并且使用了大量 PaaS 服務,但原先通過 CloudWatch 的監控覆寫并不完整。在本次使用觀測雲期間,我們推薦客戶使用了觀測雲 Func 服務子產品,該子產品是基于 Python 的腳本開發、管理、執行平台,在官方腳本市場中已經包含了數十個 AWS 服務的監控腳本。

使用者隻需要選擇對應的腳本進行簡單修改(填寫 AK/SK、Region、修改預設采集名額)等操作,并開啟定時任務,即可輕松将 AWS 服務的對象和監控名額在觀測雲平台界面上進行展示。

  • AWS 各服務監控
運維工具如此割裂,九招幫你統一納管
  • 觀測雲目前已支援的數十個 AWS 服務
運維工具如此割裂,九招幫你統一納管

招數 3:日志的采集與分析

客戶原先使用 AWS OpenSearch 訂閱服務來處理業務系統中的重要日志。在使用觀測雲期間,客戶使用了觀測雲的冷、熱分級存儲,将最近 30 天的日志存儲在 GuanceDB (觀測雲高性能 OLAP 列存資料庫)中,冷日志通過觀測雲轉存到 AWS S3 中進行備份,并且在審計等需要查詢曆史日志的場景下,無需解凍即可直接從觀測雲界面上進行查詢,取得了效率/成本的完美平衡。

除此之外,客戶日常還需要對日志黑名單進行管理,并基于一些業務關鍵字的組合來實作及時的故障通知。這些需求在觀測雲上均得到了很好的支援。

超出客戶預期的是,觀測雲的日志除了和鍊路 tracing 資料進行關聯之外,還和主機、容器等資料進行了自動關聯。客戶在分析日志的時候可以輕松點選标簽檢視對應主機/容器的運作名額,大大提升了 troubleshooting 的速度。

  • 觀測雲日志分析
運維工具如此割裂,九招幫你統一納管

招數 4:使用者體驗資料(RUM)的采集和分析

客戶前端團隊原先使用 Sentry 進行使用者體驗的分析,主要關注接口的性能、會話重放等功能,但沒有實作和後端 APM 的關聯追蹤分析。

觀測雲則提供了 session、view、action、error、LongTask 等多個角度的 RUM 中繼資料采集和分析,幫助客戶了解使用者的實際體驗。

“會話重放”在觀測雲上得到良好的支援,并且提供了多種級别模式來對敏感資料進行脫敏,確定不會顧此失彼(即在複現使用者故障現場的同時導緻使用者的敏感資料洩露)。

前端 RUM 與後端 APM 的關聯追蹤,則依靠 SDK 自動向 HTTP request Header 中添加的追蹤參數來實作,客戶無需在代碼中進行埋點即可實作前後端的資料關聯分析。

  • 對使用者體驗資料進行采集和分析
運維工具如此割裂,九招幫你統一納管

招數 5:鍊路追蹤

客戶後端開發團隊原先使用 SkyWalking 對鍊路進行追蹤,但由于産品疊代的壓力較大,未能投入精力去實作 Tracing 和 Log 的關聯分析。

觀測雲通過對 DDTrace/OpenTelemetry/SkyWalking 等主流 APM 方案的良好支援,将客戶的鍊路資料進行實時收集,并指導客戶調整 Log 輸出格式,很快便實作了客戶期待已久的 Tracing+Log 關聯分析。

此外,由于觀測雲采集的資料預設提供了非常多的擴充字段,客戶可以使用 key:value 的查詢方式根據任意擴充字段進行搜尋分析,以便對疑似異常的現象進行探索,靈活性十足。

運維工具如此割裂,九招幫你統一納管

招數 6:統一告警

在統一告警方面,客戶主要關注對主機運作名額的監控,日志關鍵字的監控,所有的告警會通過釘釘發送群通知,并通過 PagerDuty 實作電話通知。

觀測雲提供了十餘種“監控器”,包含門檻值監測、日志監測、程序監測、應用性能監測等,完全滿足了客戶對故障預警的需求。此外,事件模闆可自定義、與 PagerDuty 輕松對接也讓客戶原有的使用習慣得以保留。

  • 觀測雲的統一告警
運維工具如此割裂,九招幫你統一納管

招數 7:靈活、易用的儀表闆

客戶原先使用 Grafana 進行儀表闆的繪制,運維小組主要關注的是容器運作、AWS 服務監控等儀表闆,前端小組則需要經常響應産品團隊的需求,幫助産品團隊進行業務看闆的繪制。

觀測雲在儀表闆方面既有二十多種圖表,又提供了靈活易用的圖表繪制互動體驗。對于産品、營運同學完全可以采用拖拉拽式的方式來建構圖表樣式,通過下拉菜單來篩選自己關注的名額和查詢條件,實作圖表的繪制;對于運維、開發同學來說,則可以使用 DQL 語句來進行各種觀測資料的查詢。無論是名額、鍊路還是日志,采用的是同一種查詢文法,并且相容了 promQL 的寫法,讓客戶能輕松從原有的資料分析平台過渡到觀測雲。在短短的兩周時間内,客戶團隊自行配置了 30+ 儀表闆,得到了客戶決策層的肯定。

運維工具如此割裂,九招幫你統一納管

招數 8:資料的高效、安全分享

由于客戶的業務是屬于金融服務,是以對資料安全非常看重。在過往工作過程中,團隊通過截圖、遠端協助、發送日志等方式進行協作,不僅效率較低而且十分容易導緻資料洩露。

觀測雲提供了快照分享功能,讓客戶能夠将經過篩選過後的資料儲存為快照,分享給其他同僚,後者打開快照能進行一定程度的互動分析。在此過程中,觀測雲能夠對指定資料進行脫敏,并且設定快照的有效期/通路 IP 白名單/加密通路等,讓客戶不會有資料洩露方面的擔憂。

運維工具如此割裂,九招幫你統一納管

招數 9:從使用者 ID 出發的立體化分析

在觀測雲的助力下,客戶實作了從使用者 ID 出發的全鍊路追蹤。根據 userID 和時間段很容易找到報障使用者的通路會話,從前端關聯分析到後端鍊路、日志、主機/ Pod /容器基礎資源/資料庫中間件運作情況等,真正實作立體化、全通路的分析。産品、研發、運維同學終于可以用同一套工具來進行問題分析,快速對問題結論達成一緻。

運維工具如此割裂,九招幫你統一納管

回顧

回顧曆史,秦國的“統一度量衡”推動了經濟和社會的繁榮發展。而雲原生時代,同樣需要有統一監控平台來實作監控資料的統一、團隊分析視角的統一、資料标準的統一。

在雙方向客戶決策的彙報過程中,我們還彙報了觀測雲相對于國外商業産品的優勢:數百萬字的中文文檔能讓客戶團隊輕松上手,完善的國際化支援又能适應海外員工的使用需求。對于商用客戶,觀測雲還提供多元化的技術服務,例如定期例會、最佳實踐專題分享等,確定客戶在使用強大的産品功能的同時,能夠感受到觀測雲技術服務的溫度。

運維工具如此割裂,九招幫你統一納管

繼續閱讀