天天看點

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題

作者|涯海

稽核&校對:白玙

編輯&排版:雯燕

在陪伴衆多企業共同經曆業務上雲與雲上原生之後,我們可以看到每個企業的運維監控體系搭建過程都十分艱辛。這是由于企業業務發展迅速,對 IT 的要求也愈發嚴苛且複雜。這不僅僅展現在運維團隊架構與工作流程上,也展現在工具選型與平台搭建上。盡管不同階段不同規模的企業需要面對各種各樣現實問題,但仍然有些最佳實踐有迹可循,今天我們好好聊一下工具選型與平台搭建思路與實踐關鍵點。

工具選型與平台搭建必然趨勢

要特别說明的是,監控平台不是随便下載下傳一個開源監控工具就可以,它需要根據監控的業務特點進行整合與二次開發,以達到與實際業務情況相吻合。經過大量實踐後,我們發現企業普遍存在的監控體系需求與發展方向:

  • 自動識别與采集

雲原生帶來了跨技術棧與高動态的技術架構。是以面向複雜多變的被監控環境,采集器盡可能做到對環境的自動識别,對名額的自主采內建為一切的開始。資料都無法采集,如何監控?

  • 資料管理能力不斷強化

雲、容器和微服務的出現使被監控的對象數量增加了幾個數量級。當業務飛速發展,面對幾億甚至十億級别時序資料,我們該如何管理?

  • 資料看闆體系成為剛需

随着資料量爆發式增長,傳統的線圖、直方圖、散點圖等資料展示方法很難讓運維人員找到資料背後的異常或隐藏瓶頸。如何針對不同業務或者不同監控對象,找到更合适的資料看闆以及展現形式,成為了每個運維人員的必修課。

  • 中台樞紐作用

随着技術飛速發展,監控系統在整體運維系統的中台樞紐作用越來越明顯,運維監控從傳統的流程驅動轉變為資料驅動。如何更便捷的與其它衆多運維子系統對接整合,也是運維團隊在監控體系搭建之初需要考慮的問題。

企業監控體系演進曆程

結合上述特點,我們講企業監控體系的演進曆程歸納為以下階段。

推廣期:伺服器數量 50~100 台之間

這個階段由于伺服器數量較少、業務規模較小,是以,運維團隊對監控的需求也相對簡單。能夠實作基本的通知問題、快速定位與解決問題即可。此時的平台搭建主要是讓研發、運維等同學能夠逐漸熟悉産品使用,并通過體驗和回報,确認是否滿足企業 IT 運維以及業務特征需求,這其中幾個關鍵特點包括:

(1)部署簡單,有成熟的文檔與服務體系,上手易用;

(2)穩定運作,SLA 保障;

(3)告警體系的通知形式不用太豐富,但確定相對及時、可用;

(4)低成本費用或免費。

基于以上需求,很多初創企業可能會選擇 Nagios,Cacti,Zabbix,Ganglia 等開源工具。熱門的開源監控産品文檔相對完整,可快速上手且有大量企業實踐可供參考。但這裡存在問題就在于開源産品的性能、使用場景無法滿足随着業務場景的發展以及業務量增長,進而出現各種各樣的問題。與此同時,高可用成為緻命問題,畢竟開源社群不會時刻有志願者幫我們排查故障。

爆發期:伺服器數量 200~1000 台之間 

這個階段由于伺服器數量變多、技術架構發生了變化、元件越發豐富,監控需求也開始變得複雜。但面對衆多服務子產品或運維系統,我們需要分批次有序接入,在保證穩定性的前提下,快速上量、統一技術棧。監控系統主要用于告警通知,發現問題并避免同樣問題再次發生。這其中具備幾個關鍵特點:

(1)監控内容彙總與分類

由于監控對象以及資訊随着技術架構與業務規模擴大而增多,需要針對軟硬體、業務等不同次元的資料實作全覆寫式監控。并針對不同監控用途,需要對監控進行分類彙總,比如系統基礎監控資料、網絡監控資料和業務監控資料。盡可能多的監控覆寫,盡快發現重要問題,確定業務穩定運作。

(2)多種告警方式,及時無漏報

根據監控對象的重要程度、緊急程度進行分類,并通過郵件、微信、短信、電話等不同級别不同方式進行告警通知,每個監控對應到不同責任人,確定每個告警都有人及時跟進處理。

(3)告警政策優化與資訊收斂

由于需要監控的服務越來越多,告警資訊數量激增,每天都可能收到上千封報警郵件。過多的告警資訊就失去了精準告知的意義。如何對告警政策進行配置和優化,盡量減少不必要的告警郵件,成為政策設定的核心。 

成熟期:伺服器數量 1000 台以上

由于業務持續增長,對伺服器的需求越來越大,當伺服器超過 1000 台以後,意味着核心系統需要全部接入,并建構新的穩定性保障體系,包括監控大盤、告警通知、應急值班等。才能確定整個業務與技術大盤的穩定。這其中,需要關注:

(1)監控延時與告警滞後

當業務規模越老越大,由于元件或服務的耦合關系,很可能由于局部的細小故障導緻整個業務系統的癱瘓。是以,及時發現問題成為了一切的大前提。但假如還在選擇時開源産品,這時可能就有不小的麻煩。以 Zabbix 舉例,當規模達到一定量後,有時候會出現監控資料不能及時顯示,告警延時等問題。我們确實可以通過各種優化方式進行調整。但業務出現問題而造成的損失并不能挽回。

(2)監控系統自身的 SLA

當收集運維資料飛速增長,監控系統自身的高可用也成為了重要關注點。畢竟,失去了監控系統意味着對整個技術與業務的運作狀态失去了控制。

更具成本效益的解決方案:

應用實時監控服務 ARMS

面對上述不同階段的痛點,ARMS 成為了最佳的解決方案。與此同時,阿裡雲推出 ARMS 3.0 普惠計劃旨在通過更靈活的計費方案,幫助不同類型的使用者在不同使用階段,以更合理的成本擷取更高成本效益的可觀測體驗。在 2021 年 10 月即将推出的應用監控基礎版(按量計費)模式支援 0 元用:名額免費存儲 3 天,調用鍊基礎采樣免費存儲 1 天,功能與原有基礎版保持一緻,可按量付費延長存儲周期或提高鍊路采樣。詳情可參考應用監控基礎版功能清單或産品計費說明。 

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題

根據上述階段的使用者訴求,ARMS 3.0 應用監控推出了配套的靈活計費政策:

(1)試用期:ARMS 提供新使用者 15 天免費使用,全面評估 ARMS 産品與業務契合程度。

(2)推廣期:ARMS 提供基礎版免費額度,應用監控名額免費存儲 3 天,調用鍊基礎采樣免費存儲 1 天。零門檻無限期使用,不用擔心推廣期間的費用問題。

(3)爆發期:ARMS 基礎版支援按流量計費,可以按需調整指定應用的調用鍊采樣率,或延長存儲周期。

(4)成熟期:根據業務流量類型自由選擇按流量計費或按節點計費。

按流量計費,用多少算多少

随着微服務和 Kubernetes 的普及,微服務拆分越來越細,單個 Pod 流量越來越小。按節點計費模式就顯得不夠靈活,在業務流量不變的情況下,成本随節點規模快速增長顯然不夠合理。 

為了解決小流量和彈性流量使用者的可觀測成本問題,ARMS 3.0 推出了應用監控基礎版(按量計費)模式:調用鍊基礎采樣免費存儲 1 天,付費采樣鍊路按照 0.2 元/(百萬條Trace*天) 進行計費,單條 Trace 最多可包含 10 條 Span 調用,超出部分按比例折算。名額資料 3 天内免費,可按需付費延長存儲周期,如下表所示。

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題
演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題

以 ARMS 某基礎版使用者為例,該使用者建立了約 300 個 Pod,原始調用總量約為 54 億次/天,調用鍊采樣率為 10%,實際存儲量約 5400 萬 Trace/天。按照原基礎版鍊路存儲1天,名額存儲 3 天計算,更新為按流量計費後費用可節省 90% 以上。

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題
演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題

超大流量,按節點計費更劃算

一些 ToC 類型的業務流量非常大,并且對問題可追溯的時間跨度要求高,需要長周期存儲。此時,可以選擇 ARMS 專家版按節點計費模式,鍊路存儲 30 天,名額存儲 90天,一價全包,費用封頂,更适合大流量核心應用接入。專家版還可享受 容器服務 ACK 或 EDAS 使用者半價優惠,購買預付費流量包最低可至 1.308 元/(探針*天),詳見 ARMS 産品價格說明。 

常見問題

Q:新老使用者如何更新至應用監控新基礎版(按量計費)模式?

A:2021 年 10 月以後,新使用者試用期結束後,選擇開通基礎版,預設進入按量計費模式;存量基礎版使用者可以在應用監控 -> 應用清單頁面上方點選更新至新計費模式。新基礎版鍊路免費采樣依賴 Agent 更新至 2.7.1.3 版本,可以在應用監控 -> Agent 清單 -> java版本說明頁面選擇對應區域進行下載下傳,

https://arms.console.aliyun.com/#/tracing/agentList/cn-hangzhou

Q:新基礎版(按量計費)預設是免費的嗎?免費多久?

A:開通新基礎版(按量計費)後,預設是完全免費的,如果不調整存儲周期或調用鍊采樣率可以無限期免費使用,非常适合小流量或測試應用接入。

Q:基礎版包含哪些功能?與開源和專家版有什麼差別?

A:基礎版支援調用鍊、服務監控、JVM/主機監控、告警等基礎 APM 功能,與開源能力基本持平。專家版在記憶體/線程/異常等診斷方面會有大幅增強,按節點計費,調用鍊存儲 30 天,名額存儲 90 天,更适合大流量或核心生産應用。

Q:除應用監控外,ARMS 前端監控、雲撥測和 Prometheus 監控是否支援按量計費?

A:ARMS 前端監控、雲撥測和 Prometheus 監控均支援按量計費,并且可以通過預付費獲得優惠折扣,詳情請參考 ARMS 産品價格說明。

相關連結:

1)應用監控基礎版功能清單:

https://help.aliyun.com/document_detail/65682.html

2)産品計費說明:

https://www.aliyun.com/ntms/price/detail/arms_detail

3) ARMS 産品價格說明:

點選

這裡

,了解更多雙十一優惠!

近期熱門

#雲原生雙十一大促 驚喜活動重磅來襲#

ARMS 以及衆多雲原生産品超低折扣不容錯過,

為數字創新提供全方位支撐,

更有幸運抽獎好禮送不停!

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題

了解更多相關資訊,請掃描下方二維碼或搜尋微信号(AlibabaCloud888)添加雲原生小助手!擷取雙十一更多優惠資訊!

演進實錄|不同階段的企業如何搭建監控體系?工具選型與平台搭建必然趨勢企業監控體系演進曆程更具成本效益的解決方案:應用實時監控服務 ARMS常見問題