1.1 概述
Opennms能夠幫助IT管理部門持續的監控分布式的異構系統和網絡裝置的運作狀态,它可以支援SNMP網絡管理協定確定管理的擴充性,并且提供非常靈 活的定制功能進而有利于管理範圍的伸縮。它内置的故障事件管理以提供故障事件的記錄和分析的能力,快速隔離非根源事件并迅速發現故障原因。Opennms 良好的設計可以快速部署實施,簡單友好的圖形界面能夠使得使用者迅速掌握,進而降低操作的複雜度,提高IT管理效率。
1.2 體系架構
Opnnms體系架構的介紹:
1. 被管理對象層,SNMP代理程式是資料采集和動作執行層。對應網絡裝置來講,該層對應與網絡裝置本身的網絡管理功能,不需要在裝置上單獨部署功能子產品;對 計算機來講,該層是運作在目标計算機上的SNMP服務,負責采集該系統運作狀況、性能等資料,并向管理層彙報。
2. Opennms監控引擎是實作網絡和系統可用性、故障管理的業務邏輯和政策的處理層。他利用特定的輪詢政策:從代理程式層收集資料、更新和維護被管理對象 狀态、執行相關的報警事件通知。
3. 管理對象資料庫是網絡和系統管理的資料存儲層。其中以面向對象的方式儲存着網絡和系統資源的模型,記錄着他們的配置、描述和狀态等資訊。這些模型和資訊是 通過Opennms網絡掃描子產品自動建立起來的,并由管理者層自動維護。
4. 圖形使用者界面是網絡和系統管理的資料表示層。他以各種直覺、生動的使用者界面向使用者展示網絡和系統中各種對象的關系、配置、狀态和故障情況,是優秀的使用者接 口。
針對某企業簡稱user short name的環境,其IT故障監控子系統的管理架構為:
1. 被管理對象層——啟動核心路由器和交換機的SNMP網管協定,作為網絡裝置故障的資料提供源;在所有需要管理的伺服器上運作SNMP服務,作為監控操作系 統故障的資料提供源。
2. Opennms網絡監控伺服器——新增一台伺服器,部署Opennms的監控引擎子產品,由該子產品對被管理對象層的資料源進行自動的資料采集和翻譯采集的結 果。并實時發送報警資訊。
3. 對象存儲庫——在和Opennms監控引擎安裝的機器上安裝PostgreSQL,作為Opennms監控子產品的對象存儲庫。
4. 圖形使用者界面——某企業簡稱user short name管理者可使用任何的WWW浏覽器連接配接Opennms網絡監控伺服器的使用者界面,使用合适的使用者名,在某種适當的權限下檢視和浏覽網絡監控資訊、狀 态資訊、可用性報表和性能報表。
1.3 功能介紹
1.3.1 網絡節點自動發現
對象存儲庫中的資訊并不是靠管理者手工輸入和維護的,而是由Opennms網絡監控引擎-自動掃描子產品自動從使用者的計算機系統中搜尋發現出來的。
1.3.2 圖形使用者管理界面
在某企業簡稱user short name這樣的網絡和系統中,需要一些友好的監控視圖。目的是使得管理者能夠通過直覺的界面,迅速發現故障,進而在最短的時間内解決故障。該使用者界面視圖 可使得管理者通過管理工具看到現實世界對象的真實反映,而不是抽象的符号。使使用者能夠監控整個系統的概貌,系統的大體分布和總體運作狀況等。并且決策适當 的故障排除方案,各種界面視圖可通過Intranet進行浏覽檢視。
該使用者界面的最左邊是:Nodes with Outages,表格中列出了最近發生故障狀況的12個節點,這些節點可能是網絡故障,或者是某些網絡服務出錯等。
使用者界面的中間是:各種網絡服務的服務水準報告。它列出了最近24小時之内各種網絡服務的服務品質水準;其中的網絡服務可能包括:網絡接口的UP 時間、Web服務、DNS和DHCP服務和資料庫服務等。
最右側的是一些比較常用的功能選項:報警提示資訊、節點的性能報表、節點網絡服務相應時間報表和自定義的性能報表。
1.3.3 故障監控
被管理對象的資料采集和狀态維護是由Opennms的監控引擎子產品實作的。每個所管理的所有對象存儲在資料庫中。可以管理的對象包括:
1. 支援SNMP網管的網絡裝置
2. 部署了SNMP服務的伺服器上的作業系統
Opennms采取統一的通訊方式從這些管理對象上采集可用性和故障資訊,資訊的采集有兩種方式:
1. Opennms主動地通過SNMP協定定期查詢被管理對象狀态
2. Opennms被動接收被管理對象發來的SNMP Trap
Opennms得到被管理對象的輪詢或Trap資訊後,根據收到的資訊類型、對象原來的狀态和網絡系統管理的政策和邏輯判斷對象的狀态是否發生變 化。如果發生了變化,則可以按照管理政策采取若幹更新操作。
1.3.4 故障事件管理
當被管理對象的運作狀态發生變化時,就會産生事件。如果該事件是由正常變為故障,則會産生故障報警。事件管理是通過收集、确認事件,對事件進行分 類和過濾,關聯不同來源的事件完成對事件的處理和響應。通過事件管理,系統管理人員可以友善、迅速、及時掌握系統運作的故障和警報,及時進行處理,保障系 統的正常、穩定運作。
IT系統管理人員所關注的問題,如系統資源出現短缺、資料庫連接配接失敗、網絡通信中斷、主機檔案系統溢出等等都會以事件的形式表現出來。
1.3.5 作業系統監控
Opennms對各種計算機作業系統的可用性、運作狀況和故障的集中監控是通過本身的SNMP服務程式完成的。這些SNMP代理程式是SNMP服 務的組成部分。在本次建議的方案中,在所有的被監控伺服器上其監控的主要内容包括:
1. CPU使用率,顯示系統、使用者、空閑時間的百分比;
2. 虛拟記憶體(Virtual memory)使用率;
3. 檔案系統使用情況,顯示磁盤空間使用情況;
4. 監視檔案系統的使用率,當使用率超過特定門檻值時向系統管理者報警;
5. 監控網絡端口的輸入、輸出、錯包,以及端口是否被停用或者删除;
6. UNIX系統還可以監控
7 Load Average:伺服器平均處理量
8. 共享記憶體
1.3.6 網絡節點配置資訊管理
被監控對象節點在資料中的配置資訊是IT裝置的資産資訊,每個網絡節點都是一個特定的IT資産裝置。每個節點在資料庫中有很多屬性字段供選擇填 寫,主要有三類屬性資訊:
1. 配置種類資訊:配置分類、告警分類、輪詢屬性和門檻值分類。
2. 辨別資訊:資産描述、廠商、型号、資産編号、作業系統等
3. 位置資訊:負責人、部門、樓層、房間、機架編号等
1.3.7 全面的節點監控
每個被監控的節點都能被細緻的記錄和監控。當檢視某節點的資訊時,有這樣幾類資訊:狀态資訊、各種網絡服務總的可用性、SNMP屬性、各個接口熟 悉、最近發生的5個事件和最近的故障事件。
在檢視某個節點是,界面上的資訊分為三類:網絡服務可用性報表、目前狀态和監控事件資訊。在菜單欄還能有很多功能選項:檢視故障事件、資産資訊、 響應時間報表、SNMP性能報表、重新掃描、節點管理和更新SNMP資訊。
1.4 特點和優勢
Opennms在網絡和系統管理方面,有非常廣泛的使用者,特别是中小企業使用者,Opennms具有很多極好的特點:
1. 友善易用的使用者管理界面——Opennms可以提供故障事件視圖、節點視圖、相應時間視圖、性能視圖等各種管理視圖。
2. 基于Open Source協定開發——使用者可以按照自己的需求,通過修改軟體本身或者軟體的源代碼來定制。
3. 跨平台管理——Opennms支援任何能運作标準SNMP協定服務的作業系統系統,并且可以從一個單一的使用者界面分别管理其區域網路(LAN)。
4. 切實可行的事件管理系統——Opennms通過友善易用的互動式控制台,為IT管理者顯示關鍵事件,提供自動的事件響應,可以以電子郵件方式發出事件通 知。
5. 友善的內建——Opennms可以與第三方産品內建。例如Opennms可以友善的與Dell、HP、IBM等廠商的伺服器自帶的SNMP故障管理軟體集 成。