天天看點

先定一個運維小目标,比方監控它10000台主機

“想做世界最好是對的,但是最好先定一個能達到的小目标,比方說我先掙它一個億。”,王首富雲淡風輕地給各行各業提供了一個很好的Roadmap,包括我們運維。的确,如今資料中心的規模增長速度也已像一匹脫缰的野馬,各地都頻頻建設起超大型資料中心。按工信部的定義,超大型是指規模大于等于一萬個标準機架的資料中心,考慮到虛拟化技術的使用,實際上需要運維的主機規模很容易超過十萬的級别。是以,首富說的目标離我們也不遠,也許很快就可以達到。

而如此大規模的資料,其運維的難度可想而知,我們來逐個分析應對看看:

挑戰一:如何把監控配置等運維工作降低到零?

通常情況下,每一個主機或虛拟機的點亮,運維人員都需要為新主機完成配套的運維工作,包括系統部署、IP位址配置設定、應用部署與監控配置等等。尤其在使用虛拟機技術的資料中心,據調查,目前虛拟機的平均生存時間隻有15天,是以其配套的運維工作變得更加繁重。将這些例行的配套工作自動化,可以有效降低運維工作。

在這個問題域中,我們設想有這樣一種代理程式,它易于安裝、啟動後可自動采集本機資訊上報、同時開始監控各項重要的名額。那麼我們就很容易,将代理程式作為主機系統部署的一部份,同時預置到虛拟機鏡像中,那麼每點亮一個主機,在監控中心就可以立即發現與監控它,這能有效消除監控配置運維工作。

這樣後續新增主機的流程如下,需要運維工作投入僅僅在開機部份,其餘過程可全部自動化:

挑戰二:如何設計監控資料傳輸網絡,低成本支援海量資料?

先定一個運維小目标,比方監控它10000台主機

對于10萬主機的規模,以及目前資料中心秒級的監控需求,其監控資料顯然會成為一個大資料。一個主機上報監控資料産生了0.5KB/s的流量,那麼10萬主機,每時每刻都産生50MB/s的總流量,這當然是無法接受的。

答案是引入采集資料傳輸中間層,通過中間層有以下優勢:

1.合并上報TCP連接配接,減輕監控服務端的連接配接壓力

2.集中資料壓縮上報,并減少傳遞的資料大小

挑戰三:如何對接各類系統,實作大規模監控資料集中化?

先定一個運維小目标,比方監控它10000台主機

資料中心的監控運維不僅僅針對主機,還會有機房環境、業務應用、存儲系統等各類系統,這些系統可能也已有各自的監控工具,但運維需要避免工具的碎片化,為運維人員提供統一的監控平台。是以監控系統應當非常容易擴充監控資源與監控名額,讓運維人員可以僅用一條指令,就可以送出監測資源與名額,以便随時通過各類Shell擴充監控能力。

具體要求包括:

1.支援http或udp送出接口

2.簡潔的資料格式要求

3.不要求預先在平台中定義資源或名額資訊

這種方式,運維人員即可使用shell粘合curl指令,快速對接各類系統:

挑戰四:如何可視化上萬個主機的性能狀況?

先定一個運維小目标,比方監控它10000台主機

由于超大型資料中心的主機資源已經達到萬級,是以傳統的一些TopN報表或多元度分析表格,其顯示的資料樣本少,缺少互動式的資料分析工具,無法直覺的表現資料中心的整體性能情況,也難以分析負荷的瓶頸。

應對這樣規模的資源展現,我們需要使用一些大資料的可視化技術:

1.用反應主機負荷的圖形元素,在進行宏觀的主機展現:

先定一個運維小目标,比方監控它10000台主機

2.通過機房、系統、使用部門等等不同的次元進行切換,洞悉負荷高壓區域:

總結

先定一個運維小目标,比方監控它10000台主機

如今在監控領域,已經有很多傳統的監控工具,也包括各類開源的監控系統如Zabbix、Nagios等,但如果需要滿足萬級主機監控,還是有很多的運維平台研發的工作需要落實。而優雲monitor,本身就已充分考慮大規模的監控體量,它的設計中包含了以下特性:

1.通過一鍵安裝快速實作大規模自動化部署,降低監控的運維附加工作量

2.通過代理級聯應對各類隔離網絡環境與多資料中心,并對網絡負荷零影響

3.通過OpenAPI快速實作監控平台的內建

4.多視角切換觀察,随意縱覽萬級主機資料中心

5.可随資料中心規模增長而進一步水準擴充,随時擴大監控規模

相信優雲monitor作為面向混和雲架構的下一代雲監控産品,可以幫助大家早日實作運維小目标。

作者簡介:

蔣君偉

IT運維領域資深專家,優雲軟體産品總監,擁有10年運維實戰經驗;

先後研發了網絡管理、系統管理、CMDB、ITSM等産品,并成功建設了多個全國性的網絡運維管理項目;

其主導研發的産品廣泛應用于海關、稅務、公安、社保、銀行、保險、能源等20多個行業。

繼續閱讀