天天看點

站在“巨人”的肩膀上運維現實問題産生原因解決方案願景

現實問題

之前在論壇看到一個運維工程師的文章,内容如下:

“現在的一個IT工作者最頭疼的就是加班,秃頂的是IT工作者最多、單身的是IT工作者最多、沒有約會,沒有休閑,沒有旅遊還是IT工作者最多。這可怎麼辦呢?我是一名IT運維工程師,每天的工作量很大,更不敢離開機器半步,長期跟裝置、伺服器打交道,因為怕萬一機器出毛病,自己負擔不起業務上的麻煩,又怕經理的“炒鱿魚”,況且公司還不肯出錢雇很多IT運維人員,讓我一個人看着這麼多的裝置,真是連眼都不敢眨一下,雇來幾個人也是呆不長就走人,公司一直沒有一個專門潛心在這幹的,也招不到專門的運維人員,出了大事,還顯不出我的本領,經理直接去找專門的網絡公司協助解決,在以上這種狀況下,讓運維工程師情何以堪?是以我請大家幫忙推薦有沒有好用、免費的運維軟體,主要就是能監控伺服器和網絡裝置就行,還有沒有可以實作自動化巡檢的軟體?求大家推薦....................

求助!!!” 

産生原因

上述的情況還是處于傳統運維管理方式,這種傳統的運維管理方式讓運維工程師疲憊不堪,主要表現在兩個方面:

1,  運維工程師被動,效率低。在運維過程,隻有當事件已經發生并且對業務照成影響時才能被發現和處理,這種被動“救火”使運維工程師終日忙碌,運維品質很難提高,導緻業務部門對運維部門的服務滿意度不高,這種來自其它部門的不滿也增加了運維工程師的壓力。

2,  缺乏運維技術工具。随着技術的發展和多元化,企業的IT系統越來越複雜,各式各樣的網絡裝置、伺服器以及在伺服器上運作的各種服務讓運維工程師難以應付,即使加班加點維護,也可能因為裝置或者網絡的原因導緻服務不可通路,給公司帶來不可挽回的損失。出現這種情況的原因就是沒有使用高效的運維技術工具進行監控,通告,讓運維工程師能夠快速主動處理。

解決方案

使用監控工具

監控寶

監控寶成立于2009年,是一家面向企業或個人站長提供網站監控和預警服務的網站,目前監控寶可以監控的内容包括:網站的可通路性以及速度;伺服器硬體性能(CPU、記憶體、寬帶流量、磁盤空間、負載等);伺服器軟體性能(Apache、MySQL 等)。

主要功能

  • 站點監控
  • 服務和應用監控
  • 伺服器性能監控
  • 内容監控
  • 使用者通路速度監控
  • 警告通知

主要是通告web的方式設定,上手相對容易。

Nagios

Nagios是一款開源的免費網絡監視工具,Nagios能監視所指定的本地或遠端主機以及服務,同時提供異常通知功能等。

主要功能

  •  網絡服務監控(SMTP、POP3、HTTP、NNTP、ICMP、SNMP、FTP、SSH)
  •  主機資源監控(CPU load、disk usage、system logs),也包括Windows主機(使用NSClient++ plugin)
  •  可以指定自己編寫的Plugin通過網絡收集資料來監控任何情況(溫度、警告……)
  •  可以通過配置Nagios遠端執行插件遠端執行腳本
  •  遠端監控支援SSH或SSL加通道方式進行監控
  • 簡單的plugin設計允許使用者很容易的開發自己需要的檢查服務,支援很多開發語言(shell scripts、C++、Perl、ruby、Python、PHP、C#等)
  • 包含很多圖形化資料Plugins(Nagiosgraph、Nagiosgrapher、PNP4Nagios等)
  • 可并行服務檢查
  • 能夠定義網絡主機的層次,允許逐級檢查,就是從父主機開始向下檢查
  • 當服務或主機出現問題時發出通告,可通過email, pager, sms 或任意使用者自定義的plugin進行通知
  • 能夠自定義事件處理機制重新激活出問題的服務或主機
  • 自動日志循環
  • 支援備援監控
  • 包括Web界面可以檢視目前網絡狀态,通知,問題曆史,日志檔案等

主要通過配置檔案進行配置,但是開源免費,擁有大量的插件可以完成日常的監控需求,對入門門檻相對比較高。

使用通告工具

百度通告平台

在監控工具檢測到異常後,在通知運維工程師的過程出現遺漏的情況也會造成不可估計的後果。是以需要使用專業的通告工具——百度通告平台來保證通告無遺漏。

主要功能

  • 多管道通告方式:一種通告、多個管道,多重管道保障通告及時告知目标。随心所欲的選用通告管道:電話、SNS、短信、郵件等。
  • 報警管理:提供web版和手機APP版,可時刻響應通告,高效辦公處理,讓您工作生活兩不誤。
  • 自動逐級報警:報警從不被錯過,遺漏的報警會自動更新到合适的等級,發送給合适的人,保證通告無遺漏告知。
  • 接入快捷:大量系統元件支援各監控系統(監控寶、加速樂等)高效接入,豐富API使系統接入更加自由定制化。
  • 通告群發:通知、報警,通告想發就發,随心随意。多人(組)選擇,輕輕點選,一觸即發。
站在“巨人”的肩膀上運維現實問題産生原因解決方案願景

圖 1 傳統通告方式

站在“巨人”的肩膀上運維現實問題産生原因解決方案願景

圖 2 百度通告平台的通告方式

對比圖1和圖2,就能展現百度通告平台的價值:多管道通告方式和自動逐級報警保障故障無遺漏通告。

願景

全天候自動檢測與可靠報警方式實作IT運維的“全天候無人值守”,大大降低運維工程師的工作負擔,使運維工程師能夠從日常的基礎運維工作中解放出來,能做運維相關的技術研究。。