天天看點

Zabbix分布式監控系統使用總結

    從接觸和使用Zabbix已經有2年多的時間,剛開始接觸也就是從Zabbix安裝,使用和簡單的維護開始學習。到後來涉及到如何添加監控主機?如何自定義監控項?如何設定報警閥值?等開始學習。

    有幸在2013年底從零開始研究和選型整個公司IDC監控系統。由于Zabbix簡單易用和強大功能,決定用Zabbix做為公司的監控系統。整個公司有多個IDC機房,監控節點有700左右,采用Zabbix分布式來監控。

    現在Zabbix上線已經接近一年的時間,運作非常穩定,打開頁面速率流暢。在這一年的多的時間裡面,也發表了一系列文章,主要包括Zabbix監控和分布式部署和實施方案、Zabbix如何監控網絡裝置、Zabbix 背景資料操作和API等。希望對廣大朋友所有幫助。

    1)Zabbix監控和分布式部署實施方案

    2)Zabbix分布式部署proxy實戰

    3)Zabbix如何監控網絡裝置

    4)Zabbix如何監控Windows機器

    5)Zabbix通過Shell腳本監控HP伺服器硬體資訊

    6)Zabbix通過SNMP監控HP伺服器硬體資訊

    7)通過Zabbix全面監控NetScaler負載均衡裝置

    8)Zabbix監控mysql資料庫性能

    9)如何從Zabbix資料庫中擷取監控資料 

    10)Zabbix Python API 應用實戰

    做好監控系統,最重要的其實就是兩點,首先是監控項目的設定。根據系統、業務設定最能代表監控項目的性能名額。其次是報警門檻值的設定。根據業務名額設定精準的報警門檻值。比如說監控Apache的httpd程序數監控,如果MaxClients設定200,那麼當httpd程序在180的時候必須報警,如果在200的時候報警,此時由于httpd程序爆滿已經打不開頁面了或者打開網站的速度非常慢。

    下面是平時工作中總結的Zabbix報警門檻值的設定,主要包括Linux系統、Windows系統、伺服器硬體監控、網絡裝置和線路的監控的報警門檻值的設定。

    1)Linux系統的報警門檻值,這裡增加了Linux僵屍程序的監控。

<a href="http://s3.51cto.com/wyfs02/M01/71/85/wKiom1XS1GzgXKOEAAPOQ175b4g376.jpg" target="_blank"></a>

    2)Windows系統的報警門檻值,perf_counter是通過windows的性能計數器擷取的資料。

<a href="http://s3.51cto.com/wyfs02/M02/71/85/wKiom1XS1IDwdHxSAAMGoF_Ihf8115.jpg" target="_blank"></a>

    3)SQLServer和IIS的報警門檻值,其中perf_counter是通過windows的性能計數器擷取的資料,Check_IIS_perf.sh是通過腳本以External check方式監控的。

<a href="http://s3.51cto.com/wyfs02/M02/71/85/wKiom1XS1I3jr6kDAAONCvAT918391.jpg" target="_blank"></a>

    4)HP硬體的監控,主要是通過SNMP協定和Zabbix discovery方式來監控。

<a href="http://s3.51cto.com/wyfs02/M00/71/81/wKioL1XS1qWjTe5xAAEc_8ao3ag665.jpg" target="_blank"></a>

    5)其它方面的監控,主要是應用程式的監控。

<a href="http://s3.51cto.com/wyfs02/M00/71/85/wKiom1XS1KTjGGy_AAvlJxB-Dtg815.jpg" target="_blank"></a>

    最後,發表此文章的主要目的是和廣大朋友互相交流和互相學習,在一些自定義監控項目上面提供更多一點自己的想法和使用經驗,如果在系統和應用的監控方面有更多好的想法,歡迎互相交流。

本文轉自 sfzhang 51CTO部落格,原文連結:http://blog.51cto.com/sfzhang88/1685537,如需轉載請自行聯系原作者

繼續閱讀