從接觸和使用Zabbix已經有2年多的時間,剛開始接觸也就是從Zabbix安裝,使用和簡單的維護開始學習。到後來涉及到如何添加監控主機?如何自定義監控項?如何設定報警閥值?等開始學習。
有幸在2013年底從零開始研究和選型整個公司IDC監控系統。由于Zabbix簡單易用和強大功能,決定用Zabbix做為公司的監控系統。整個公司有多個IDC機房,監控節點有700左右,采用Zabbix分布式來監控。
現在Zabbix上線已經接近一年的時間,運作非常穩定,打開頁面速率流暢。在這一年的多的時間裡面,也發表了一系列文章,主要包括Zabbix監控和分布式部署和實施方案、Zabbix如何監控網絡裝置、Zabbix 背景資料操作和API等。希望對廣大朋友所有幫助。
1)Zabbix監控和分布式部署實施方案
2)Zabbix分布式部署proxy實戰
3)Zabbix如何監控網絡裝置
4)Zabbix如何監控Windows機器
5)Zabbix通過Shell腳本監控HP伺服器硬體資訊
6)Zabbix通過SNMP監控HP伺服器硬體資訊
7)通過Zabbix全面監控NetScaler負載均衡裝置
8)Zabbix監控mysql資料庫性能
9)如何從Zabbix資料庫中擷取監控資料
10)Zabbix Python API 應用實戰
做好監控系統,最重要的其實就是兩點,首先是監控項目的設定。根據系統、業務設定最能代表監控項目的性能名額。其次是報警門檻值的設定。根據業務名額設定精準的報警門檻值。比如說監控Apache的httpd程序數監控,如果MaxClients設定200,那麼當httpd程序在180的時候必須報警,如果在200的時候報警,此時由于httpd程序爆滿已經打不開頁面了或者打開網站的速度非常慢。
下面是平時工作中總結的Zabbix報警門檻值的設定,主要包括Linux系統、Windows系統、伺服器硬體監控、網絡裝置和線路的監控的報警門檻值的設定。
1)Linux系統的報警門檻值,這裡增加了Linux僵屍程序的監控。
<a href="http://s3.51cto.com/wyfs02/M01/71/85/wKiom1XS1GzgXKOEAAPOQ175b4g376.jpg" target="_blank"></a>
2)Windows系統的報警門檻值,perf_counter是通過windows的性能計數器擷取的資料。
<a href="http://s3.51cto.com/wyfs02/M02/71/85/wKiom1XS1IDwdHxSAAMGoF_Ihf8115.jpg" target="_blank"></a>
3)SQLServer和IIS的報警門檻值,其中perf_counter是通過windows的性能計數器擷取的資料,Check_IIS_perf.sh是通過腳本以External check方式監控的。
<a href="http://s3.51cto.com/wyfs02/M02/71/85/wKiom1XS1I3jr6kDAAONCvAT918391.jpg" target="_blank"></a>
4)HP硬體的監控,主要是通過SNMP協定和Zabbix discovery方式來監控。
<a href="http://s3.51cto.com/wyfs02/M00/71/81/wKioL1XS1qWjTe5xAAEc_8ao3ag665.jpg" target="_blank"></a>
5)其它方面的監控,主要是應用程式的監控。
<a href="http://s3.51cto.com/wyfs02/M00/71/85/wKiom1XS1KTjGGy_AAvlJxB-Dtg815.jpg" target="_blank"></a>
最後,發表此文章的主要目的是和廣大朋友互相交流和互相學習,在一些自定義監控項目上面提供更多一點自己的想法和使用經驗,如果在系統和應用的監控方面有更多好的想法,歡迎互相交流。
本文轉自 sfzhang 51CTO部落格,原文連結:http://blog.51cto.com/sfzhang88/1685537,如需轉載請自行聯系原作者