天天看點

大型集團企業一體化運維監控方案

作者:北京智和信通

目前,雲計算、大資料、人工智能等IT技術迅猛發展,企業的資訊化步入了一個嶄新的時代,企業規模不斷壯大,業務不斷拓展,企業資訊化依賴的網絡結構和IT技術越來越複雜。企業運維部門采用的運維工具和技術實力直接決定企業是否能提供穩定、可靠、快速、優質的服務。但傳統網管監控裝置種類受限,監控的效率不高,後期擴充困難,同時無法和企業的業務情況結合起來,無法提供足夠的安全管控功能,緻使企業IT系統運作維護的管理水準相對滞後。

第1章 大型集團企業網絡運維的痛點

随着企業數字化轉型更新程序的加快,很多大型集團企業的資訊化建設雖已具備良好的IT基礎,但同時也導緻企業IT系統架構越來越複雜,新業務系統不斷上線,企業内部難以掌握企業内所有軟硬資源的數量、版本、運作狀态等資訊,大型集團企業運維面臨諸多難題。

面臨的具體難題如下:

  • 因建設時期等原因,企業網絡中分布着不同時期、不同廠商、不同型号的IT裝置,運維人員需頻繁切換不同廠商的管理平台對其進行管理,難以進行全面高效運維。
  • 正常網絡管理工具,缺乏各級網絡結構可視化能力,難以全面覆寫所有網絡設施,使用者無法掌握網絡運作态勢。
  • 企業網絡中交換機、路由器、VPN、伺服器、PC等多種類型裝置并存且互相連接配接,連接配接方式多樣複雜,難以清晰管理裝置間的連結關系。
  • 網絡中出現故障或異常時,因裝置品牌、型号、配置等存在差異,難以快速定位,又因網絡結構複雜,難以快速定位故障根因,造成排障困難。
  • 企業運維過程中,隻有當故障已經發生并且造成業務影響時才能發現和着手處理,日常運維工作多處于“救火”狀态,被動地處理各種故障。
  • 網絡裝置配置複雜,裝置間相容性差,運維過程中大量的配置變更和巡檢工作以手工為主,效率低、風險大。
  • 企業内部如ERP、CRM、OA辦公、項目管理系統等業務系統衆多,業務系統間交叉關聯,缺乏合理手段對業務進行全面監控。
  • 企業中IT裝置、業務軟體、行政資産等數量巨大,種類繁多,僅靠人工管理難以對其備件、配件資訊詳細統計,資産的采購、調撥、報廢等管理效率低,難審計。
  • 網絡性能、流量、巡檢和配置檢查的資料多為手工整理,資料分析統計難度大,效率和正确率較低,難滿足更高的運維管理需求。

第2章 大型集團企業對運維監控軟體的需求

根據企業資訊化建設現狀和運維難題,往往提出以下基礎運維需求,并希望通過一款産品全棧式運維,滿足企業基本需求和支撐企業進行運維擴張。

(1)全面深入地監控管理

企業既有不同廠商的網絡裝置,也有各種伺服器、軟體應用,裝置種類繁多,裝置數量巨大,而且裝置的管理協定不同,運維部門期望能用一套軟體統一監控起來。

(2)不間斷地全程監控

運維部門需要進行7*24的全程監控,故障将要發生前能提前預警,故障出現時可以立刻通知到管理者,定位到故障環節,快速恢複系統。

(3)後期擴充裝置的支援

對企業來說,新的業務在不斷開展,裝置和新的軟體應用也在不斷擴充,運維部門期望現有的網管軟體對未來的擴充也能有較好的支援。

(4)清楚地掌控裝置部署間的關系

裝置之間的實體關系、裝置與業務的關系,是運維部門進行全局掌控的基本條件, 随着時間的變化、人員的流動、裝置的變更、業務的遷移,導緻裝置和業務的拓撲關系很難管理。

(5)IT複雜性與管理友善性的沖突

IT基礎設施本身就越來越複雜,技術也越來越進階,面對複雜的IT設施進行管理,對運維部門技能的要求也将更高。是以對網管的功能要求也是越來越高,造成網管軟體功能操作複雜,難以上手。

(6)多層次的安全管理

對于企業中的不同部門,需要對不同的部門配置設定不同的管理權限以及裝置權限,權限的管理配置設定是運維部門關注的重要名額。

(7)結合業務監控

傳統網管監控軟體往往隻監控網絡裝置,無法對公司業務情況進行多層級業務可視化展示和實時監控,難以有效回報業務運作情況,是以需要一款産品可深入業務進行實時監控。

(8)成本的控制

運維部門作為服務中心,如何保障IT投資收益,提升IT投資價值,實作最大的業務目标,是運維部門重點關注的名額。

第3章 大型集團企業一體運維監控方案

大型集團企業中,旗下各分子公司通常分别建設資料中心和運維體系,但随着集團資訊化建設的發展,運維需求越來越多樣,各分子公司獨立建設運維系統的技術和成本飛速增長,且各級公司“煙囪式”分散部署的運維系統,難以實作一體化管理與協同融合。北京智和信通一體化運維監控方案,引入萬物互聯理念和技術打造一體化運維系統,為企業資訊化、數字化轉型奠定基礎。

方案通過智和網管平台對管理區域内的各類網絡裝置進行集中監控、操作維護和資源配置排程等,實作對網絡資源的管理、運作監測、政策配置、故障管理,并通過自動化運維能力實作故障資源,對于無法自愈的故障與報修,通過運維工單調動現場運維人員進行處理,提高企業IT裝置資源的可靠性與安全性,保障企業業務穩定運作,為使用者帶來更高品質的資訊服務。

大型集團企業一體化運維監控方案

智和信通大型集團企業一體化運維監控架構

3.1.多級架構一體化監控

一般大型集團企業會根據地域、業務等設立多個分子公司、事業部或辦事處,如何建立“一體化”“集中式”的IT運維體系,保障集團核心網絡、業務的持續穩定,降低故障率是每個大型集團企業必須思考的問題。

在運維管理上,北京智和信通一體化運維監控方案将大型集團企業網絡中的IT設施均納入智和網管平台中一站管控,避免分散管理,減少運維成本。采取智能技術,實作網絡拓撲可視化的能力,通過動态智能拓撲實作全網裝置、資源、連結關系、IP等實時更新、快速定位。

大型集團企業一體化運維監控方案

大型集團企業網絡拓撲示意圖

通過按片區、按地域、按層級等多種布局方式劃分網絡,使用不同顔色、粗細、圖示表示被管理對象的狀态資訊,助力運維人員實時了解網絡架構及全網運作狀态,快速感覺資源、鍊路、流量等異常資訊。

大型集團企業一體化運維監控方案

大型集團企業網絡拓撲示意圖

3.2.全網資源統一監控

通過對大型集團企業網絡中海量交換機、路由器、接入裝置、無線AC、AP、攝像頭、作業系統、應用、資料庫、虛拟化、中間件、雲、存儲等智能解析和關聯分析,結合全流量采集分析能力,形成整個網絡通信鍊路的多端網絡流量分析鍊,助力運維人員從多個次元實作對相應告警的智能分析,解決傳統運維監控中關聯資料缺失,輔助排障資訊不足的問題。

大型集團企業一體化運維監控方案

3.3.虛拟化資源統一管理

方案支援對虛拟化環境下的虛拟機、主控端等進行全方位運維監控,全面支援Exi5、KVM、Xen、Hyper-v等,監測名額涵蓋實體機内部虛拟化裝置的電源、作業系統、CPU、記憶體、磁盤等,最大化利用計算資源,保障虛拟化平台運作穩定。

大型集團企業一體化運維監控方案

3.4.雲上雲下資源統一監控

方案對複雜的多雲異構環境、雲上雲下資源、信創雲等進行全面管理,實作雲下伺服器、網絡裝置、安全裝置、機房、機櫃、專線、配件等設施,雲上各類雲伺服器、雲磁盤等雲産品以及各類 IP、NAT、DNS 等資源的真正一站式運維,并支援對納管資源的快速擴充。

大型集團企業一體化運維監控方案

3.5.端到端全鍊路可視化

方案通過對交換機光口和網絡接口的監控,通過資料采集分析,實作對網絡流量和關鍵連接配接的預測性維護,從整體次元到局部次元全面展示大型集團企業網絡内IT裝置間鍊路各項名額,整體可觀測、可告警、可分析、可統計。

大型集團企業一體化運維監控方案

3.6.彈性擴充,滿足網絡發展需求

方案支援裝置及資源彈性伸縮,滿足網絡中裝置量持續增長及更新的需求。可對裝置類型模型進行擴充,可自定義新裝置的類型、圖示、類型識别政策;可對裝置資源模型進行擴充,自定義新裝置類型的網口、訓示燈、風扇、電源的圖示、識别發現政策;可自定義裝置面闆圖,以拖拽、滑鼠操作完成裝置面闆模闆的制作;支援故障和性能擴充。

大型集團企業一體化運維監控方案

3.7.實時故障預警

全面采集大型集團企業網絡内所有聯網裝置,如交換機、路由器、接入裝置、無線AC、AP、攝像頭、作業系統、應用、資料庫、虛拟化、中間件、雲、存儲等狀态資訊,通過對告警機制以及門檻值的設定,第一時間擷取準确的告警資訊,快速定位告警裝置,提升告警處理效率,降低因裝置故障帶來的損失。

大型集團企業一體化運維監控方案

3.8.異常事件管理

将事件和告警分離管理,接收裝置/伺服器主動發送的消息,集中處理後,及時地通知使用者,并可以通過集中的管理界面進行管理。接收裝置/伺服器主動發送的消息,極大地提高了管理的主動性,通過統一界面集中管理事件,降低了管理的難度。

大型集團企業一體化運維監控方案

3.9.跨地域自動巡檢

傳統的人工巡檢,尤其是應用巡檢,缺乏統一的規範、标準,導緻巡檢的範圍和深度都存在一定的局限性,并且是基于人工的手工統計,工作效率比較低,同時耗費較大的人力資源。本方案依托平台将以前依賴手工進行的日常巡檢轉換為自動化、定時執行的巡檢政策,日常例行巡檢、節假日和重要事件前的巡檢均可自動化執行。

3.10.全網帶寬、流量監控與分析

随着大型集團企業資訊化建設的加速,其業務、應用層出不窮,對網絡帶寬的需求越來越高。正常的業務需要良好的帶寬環境保障機制,避免被一些與業務無關的雜事幹擾,影響工作效率。方案對大型集團企業流量和帶寬實時監控,将出入雙方向流量情況可視化展現。基于海量流量資料的存儲挖掘,統計分析流量峰值、谷值、流量趨勢、裝置流量等資料,為網絡流量管理提供資料支撐。

大型集團企業一體化運維監控方案

3.11.全網IP合規監控

對于大型集團企業的IP資産,采取統一資料标準,對整體網絡中的IP和MAC進行梳理和管理,建立健全IP資産台賬,端到端規劃、部署、管理和監控IP 位址。通過智能IP掃描能力,定義多層次子網,然後掃描其範圍内每個IP位址的目前狀态,包括IP位址,MAC位址等資訊,也可以檢視IP段内位址使用詳情,便于IP位址配置設定管理等。

大型集團企業一體化運維監控方案

3.12.端到端業務運維體系

随着業務的不斷增長,企業内部應用系統也越來越多,如果建設統一的應用維護、管理體系,将給企業運維管理帶來不小的壓力。通過搭建端到端業務監控體系,實作集團業務系統運維管理的主動化和體系化,通過實時的監測和分析發現系統潛在的問題和風險,實作主動式運維管理,保障關鍵業務穩定運作。

大型集團企業一體化運維監控方案

大型集團企業業務系統示意圖

針對業務應用性能與使用者體驗進行檢測分析,無需安裝插件即可提供開箱即用的主動撥測試業務監測。從前端使用者體驗、網絡延遲到後端的業務服務和基礎架構,全棧溯源為使用者提供端到端的完整全鍊路資料融合和關聯分析,為使用者快速發現業務性能瓶頸,提升使用者體驗奠定基礎。

大型集團企業一體化運維監控方案

大型集團企業業務看闆示意圖

直覺、便捷地幫助運維人員對大型集團企業的ERP、MES、LIMS、CRM、人事管理系統、OA管理系統、項目管理系統、桌面安全、ITSM、資料存儲備份等進行監控,掌握業務的運作狀态和健康水準,了解業務動态變化趨勢,快速定位故障源,降低營運風險。

3.13.無人值守的裝置遠端配置

大型集團企業網絡承載的業務經常發生變更,面對業務的變更運維工程師往往要對大量裝置進行操作,此時如果依靠工程師逐一登入裝置進行指令下發、政策配置,将産生大量重複性的工作,不但導緻運維效率低下,也不可避免地産生人為配置錯誤。

通過智和信通全場景自動化運維方案納入監控的裝置進行單獨、批量的配置操作,裝置政策遠端配置管理,可以自動批量進行裝置配置修改,并可對裝置配置進行備份、對比、恢複,當機後裝置配置可快速複原,保障裝置及時恢複運作,全面提升配置效率、品質和安全性 通過批量作業并行處理能力,實作多裝置并發批處理操作,将簡單的裝置控制操作在大批量裝置進行執行,并對執行過程進行監督,對執行結果進行檢查。在安全合規的前提下,将運維人員從整體的變更流程及變更内容的準備中解脫出來,實作網絡變更、裝置配置自動化。

多類型多廠商裝置支援:

針對不同類型的裝置,支援進行各種控制、配置操作。

  • 對伺服器/主機/虛拟化,支援一鍵開關機、程序管理、應用管理、容量管理等
  • 對交換機/路由器,支援ACL、QoS、流量政策、端口政策等
  • 對安全裝置,支援防護管理、認證管理、NAT管理、VPN管理、内容控制等
  • 對資料庫/中間件,支援空間管理、池管理、會話管理、連接配接控制等
  • 對傳輸裝置,支援終端管理、鍊路管理、信号控制、功率配置等
  • 對其他裝置,支援結合使用者實際場景,通過拖拽流程的方式實作自定義管控政策

對不同廠商,如Cisco、HP、Nortel、Juniper、3Com、D-link、Foundry、Dell、Proxim、NetScreen、華為、H3C、銳捷、中興等多家廠商的網絡裝置。

3.14.全場景自動化運維

方案将大型集團企業網絡運維中涉及的服務、指令、操作、執行元件化、政策化,将需要進行的運維服務、操作等以元件、政策的形式托管至平台中進行維護和管理,通過簡單靈活地編排能力,使用者可以選擇業務場景所需的政策,通過可視化拖拽的編排方式進行組合,即可完成應用場景端到端的圖形化編排,最後以多種方式觸發執行即可完成期望的運維變更任務,進而實作高效、穩定、安全的智能運維。

大型集團企業一體化運維監控方案

3.15.人工運維與故障自愈結合

将人工運維與故障自愈結合,無需針對告警進行手動處置,隻需預編排告警處理流程,平台根據場景自動觸發,實作故障自愈。

大型集團企業一體化運維監控方案

通過實時發現告警,進行預診斷分析,判斷告警類型和級别,如果是一般告警,平台進行自動恢複,如果是嚴重複雜告警則通過告警通知、運維工單等形式通知運維管理人員,進行人工處理。同時,将隻能由專家處理的各類操作和判斷轉化為可存在于平台内的流程,形成可保留可複用的運維知識。

3.16.運維大資料分析

大型集團企業網絡設施及各業務系統産生的海量資料無法得到深層次的應用,管理者決策缺乏資料依據,難以參考各類網絡業務名額、資料等實作對運作态勢、隐患風險的實時掌控及營運管理。

為解決此難題,智和信通大型集團企業監控運維方案利用圖形、圖表、圖表等易于了解的形式,提取和分析大量複雜的各類運維資料,呈現分析結果,将全域資源融合展示。進而幫助運維人員在短時間内更好地了解和獲得更多的資訊,幫助運維中心能夠實時了解業務和其所依賴IT資源的運作狀況,以及提供系統運維和優化的訓示和依據。

大型集團企業一體化運維監控方案

大型集團企業運維大屏示意圖

3.17.IT資産生命周期監管

對于資産管理,采取統一資料标準,對整體網絡資産進行梳理和調用,避免資産資訊在運維系統和實物間的差異,減少網絡運維過程中資訊不一緻、資料不統一等問題通過平台将資産實物與運維資料庫一一對應,解決網絡裝置在日常運維過程中出現“脫管”或“半脫管”的問題。

大型集團企業一體化運維監控方案

建立健全資産台賬,實作一機一檔,通過自定義多級資産分類,細化資産類别,實作資産分類管控,提高資産精細管理程度。從資産入庫、領用、變更、維修、調撥、到報廢處置,資産每一步操作均實作完整記錄,支援追溯,通過平台實作資産整個生命周期的全流程閉環管理。

3.18.可量化運維工單體系

通過方案實作運維工單“無紙化”,支援于裝置和故障管理頁面快速建立工單,把控故障處理進度,通過工單平台簡化故障處理流程,形成自動化故障處理機制,并在每個處理流程的節點上責任到人,實作在快速響應故障的同時,實作兼顧運維流程管控。 通過建立工單服務基準,預設工單在不同優先級、不同狀态時,受理人應該響應的時間及未響應時的處理方式,生成工單自動化處理規則,并以多種方式進行通知,避免逾時響應提升全流程服務管理品質。

第4章 智和信通信創國産化支援

方案涉及的所有産品與子產品,均由北京智和信通自主研發,從功能子產品、資料庫、界面全部基于統一Java技術平台和統一資料關系模型,不包含任何第三方功能庫。

智和信通提供的信創運維方案,立足于北京智和信通10年的國産融合經驗,與國産軟硬體産品深度适配,方案應用覆寫各行各業。方案支援在中标麒麟、銀河麒麟、紅 旗 Linux等國産作業系統上運作,支援在達夢、金倉、神州等國産資料庫進行資料存儲,通過東方通等國産中間件提供對外服務,支援龍芯、申威等 國産CPU 架構,并實作對國産化CPU、伺服器、資料庫、中間件等IT 軟硬體裝置的綜合監控與運維管理。

大型集團企業一體化運維監控方案

第5章 标杆案例-中國移動北方十三省集中監控運維項目

2010年中國移動通信集團在全國建設了不良資訊過濾系統,此系統由不良資訊過濾軟體、Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機、存儲伺服器等構成。

建設範圍:中國移動不良資訊過濾系統的北方區域:北京、天津、黑龍江、吉林、遼甯、山東、山西、甘肅、青海、西藏、河南、甯夏共13個省公司。

裝置類型:過濾軟體、Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機、存儲伺服器等

5.1.核心需求

需要一套集中的OMC(操作維護中心)監控軟體,對不良資訊過濾系統的所有的設施進行監控。

  • 集中部署OMC,分區域管理:各省市管理人員從Internet登入到OMC系統,對本省的裝置進行監控;
  • 穿透私網:要管理的裝置分散在各省公司下不同城市的機房中, 網管伺服器無法直接通路各省裝置;在北京的中心機房,可以監控到其他機房的裝置運作情況;
  • 嚴格的故障處理機制:故障發生、故障通知、故障清除、故障确認、故障恢複,需要符合中國移動的運維管理規定;
  • 時效性要高:發現故障的時間,平均不能低于30秒,最大不能超過1分鐘;每台裝置 10—20個需要監控的故障/性能名額,監控周期為10秒鐘;
  • 統一監控:所有的伺服器、網絡裝置、軟體系統在同一界面中統一監控;
  • 7*24 小時的監控畫面:主監控螢幕需要7*24小時不間斷展示告警和警報。

5.2.智和信通建設方案與效果

已實作包括裝置拓撲、故障管理、性能管理、配置管理以及安全管理等在内的超過1000種基礎網管功能,且支援功能擴充針對中國移動的具體需求,智和信通提出以下解決方案:

大型集團企業一體化運維監控方案

拓撲監控效果

利用WebService技術采用集中式部署運維平台,分布式部署的網管采集代理,實作中心、片區的層級監測,片區獨立運作,中心可以集中管理分部的監測資料;

  • 配置代理伺服器的IP和端口,做到采集服務端的代理模式,可以做到監控私有網段下的裝置;
  • 具備主動的故障監控功能,能從衆多的事件和狀态中,系統将零散的狀态資訊,總結成為目前工作狀态,并産生告警;
  • 采用JAVA多線程任務并發技術,把監測頻率提升到秒級,以保證監測資料的實時性和精确性,監控周期最低可以設定為5秒;
  • 采用裝置統一模型,可以統一管理Windows 伺服器、Linux 伺服器、資料庫、分流裝置、交換機等各種裝置類型;
  • 用戶端與服務端之間網絡故障恢複後,網管用戶端無需重新開機,自動恢複,資料庫停機/故障恢複後,網管系統用戶端、服務端無需重新開機,自動恢複,支援雙機熱備功能。

繼續閱讀