天天看點

突發伺服器故障,老網工最喜歡用這招

作者:網絡工程師俱樂部

作為承載了企業各種業務的平台,伺服器出故障的影響非同小可,嚴重時可能危及業務開展,而如果故障發現不及時,企業就會蒙受更大的損失。

我曾經發過伺服器出故障的幾種情況+解決方法,友善萌新了解常見的問題和情況:《伺服器12種基本故障+排查方法》

但是在實際工作中,如何才能快速發現伺服器出了故障,才是很多人的痛點。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

對于這個問題,我覺得可以有倆思路:

一是通過集中管理平台管理大量裝置,定期對其進行檢查,發現問題再處理。

二是隻要伺服器出現問題,就第一時間發送事件通知出來,随後由管理者根據通知定位問題做出處理。

第二種方法會更高效省時寫,管理者隻需關注出現問題的裝置即可,不僅避免了大量的重複性裝置檢查工作,而且有助于問題的及時處理。

第二個思路需要咋設定才好?這就是我今天想和你聊的,用SNMP告警就行。

今日文章閱讀福利:《 深入了解計算機網絡 》

私信老楊,備注關鍵詞“網絡”,即可擷取該本經典書目。24h内添加好友的粉絲朋友,額外獲得老楊1v1職業解答一次。

01 什麼是SNMP,邏輯清晰告訴你

SNMP(Simple Network Management Protocol),即簡單網絡管理協定,是一種應用層協定,可用于網絡管理。

通過SNMP,管理者可進行資訊查詢、設定、接收告警等,及時發現網絡裝置等出現的問題。

當裝置狀态發生變化時(比如電源斷電、硬碟被移除、伺服器重新開機或當機等),SNMP會發送Trap消息到管理裝置,實作事件通知告警等功能。

這種方式下SNMP Agent主動将資訊通知到管理裝置,由此管理裝置不必對大量裝置進行定期檢視,隻要出現問題即可接收到資訊。

而為了接收SNMP Agent發送的通知,管理端需要啟用Trap接收機制——通常使用的是UDP162端口,收到Agent發送的資訊時,接收端的控制台會顯示事件出來,并帶有描述事件的相關表述。

目前SNMP有v1、v2和v3版本,其中v3版本可以實作加密和認證,相比前兩種版本更加安全,目前大多數裝置都支援此版本,包括戴爾易安信伺服器。

出于及時發現伺服器故障的考慮,在伺服器上配置SNMP是必要的。

接下來,就具體說明如何在伺服器上設定SNMP Trap告警,并配置管理端接收資訊。

02 怎麼用SNMP?手把手教你

由于SNMP v3協定需要支援認證及加密,是以在iDRAC Web UI上,首先要設定使用者支援的協定類型及認證加密類型。

在iDRAC設定裡找到使用者配置,編輯本地使用者後需要在進階設定的SNMP v3 Settings中勾選v3協定,預設是Disabled,這裡需要選擇Enabled來開啟此使用者的SNMP v3的支援。

此外認證及加密類型需要裝置支援,有“認證+加密”、“認證+不加密”以及“不認證+不加密”幾種選擇,這裡我們自行測試的話,認證及加密類型可以選擇none。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

其次,在配置的系統設定中選擇告警配置的選項,為了發送告警資訊,這裡需要将預設的Disabled選項調整為Enabled。

針對告警内容,PowerEdge伺服器支援多種方式的告警,包括Email、SNMP Trap、ipmi等,這裡為了實作Trap功能,需要勾選SNMP Trap類别。

至于告警級别,也包括了“通知”、“警告”、“嚴重”三種等級,對此我們可以根據具體不同的Category進行設定。

關于類别篩選,我們可以在Alertsand Remote System Log Conguration(警報和遠端系統日志配置)中執行操作:

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

• 系統運作狀況—表示系統機箱内與硬體相關的所有警報的系統運作狀況類别(示例包括溫度故障、電壓故障、裝置錯誤)。

• 存儲運作狀況—存儲運作狀況類别代表與存儲子系統相關的警報(示例包括控制器錯誤、實體磁盤錯誤、虛拟磁盤錯誤)。

• 配置—表示與硬體、固件和軟體配置更改相關的警報配置類别(示例包括添加/移除的PCI-E卡、更改的RAID配置以及更改的iDRAC許可證)。

• 稽核—表示稽核日志的稽核類别(示例包括使用者登入/登出資訊、密碼驗證故障、會話資訊、電源狀态)。

• 更新—更新類别表示由于固件/驅動程式更新/降級而生成的警報。

在SNMP Trap格式部分,選擇發送Trap的版本,一般支援SNMP v1、SNMP v2或SNMP v3,為了實作SNMP v3功能這裡需要選擇SNMP v3,随後單擊應用。

SNMP端口号預設162,共同體(Community String)是v1和v2使用的(如圖所示),實際上相當于密碼,若需要可以進行設定,對SNMP v3協定而言則不需要此項。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

在SNMP Traps設定中,勾選State來啟用警報目标可以填寫IPv4位址、IPv6位址或完全限定域名(FQDN),目前最多可以指定八個目标位址;

對于Destination Address(添加的發送目标IP位址),這裡的位址為管理裝置的位址,比如網管平台或者Mib Browser用戶端所在的位址等;

至于SNMP v3 Users,隻有在上一步的Trap格式選擇v3後才可以在此選擇使用者。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

伺服器端設定完成後,還需要設定管理端,可以通過Mib Browser接受伺服器發送的Trap資訊。

下圖為Mib Browser的界面,此界面通常會包含Mib庫及告警資訊檢視的相關内容。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

管理端設定中可以添加使用者,此使用者要跟PowerEdge伺服器上設定的使用者對應,這裡首先需要将SNMP版本設定為v3,之後再添加參數資訊。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

選擇了v3之後,點選Add添加使用者資訊——添加目标主機的IP位址和端口,當需要從伺服器擷取或設定資訊時,管理端會與伺服器上SNMP Agent的161端口進行通信,這裡認證和加密協定與之前伺服器端的設定要保持一緻。

突發伺服器故障,老網工最喜歡用這招

編輯

添加圖檔注釋,不超過 140 字(可選)

設定完成後,打開TrapViewer即可接收告警資訊,伺服器狀态改變後,可以看到接收端收到了一條Trap資訊。

突發伺服器故障,老網工最喜歡用這招

編輯切換為居中

添加圖檔注釋,不超過 140 字(可選)

自此,伺服器上的SNMP Trap告警設定完成。

可以看到,通過SNMP Trap的簡單設定,使用者就可以輕而易舉地實作大批量裝置管理操作,并且相比于人為從裝置上尋找資訊,被動地接收告警減少了大量的工作量,也保證了問題的及時發現,進而将損失降到最低。

整理:老楊丨9年資深網絡工程師,更多網工提升幹貨,請關注公衆号:網絡工程師俱樂部

繼續閱讀