zabbix我們主要用于資料庫的監控,數量百台,采用passive模式由server向client輪詢資料。監控主要是shell收集資料。
資料庫分布于國内和國外(可定會遇到網絡問題,zabbix暫時未做proxy),zabbix server處于國内;
zabbix dasboard上顯示每秒處理 200個左右的事務,這樣的話幾乎是沒有壓力的;但在queue中發現超過10m以上的居然有上百個。
原因分析:
除了國外部分server 由于網絡未及時監控到的原因,大部分延遲集中在某client幾個items上。
zabbix server os,資料庫等機會無壓力,頁面打開順暢。上線時間剛剛2個月,資料量還沒達到一定規模;基本排除zabbix server 性能問題。
起初的處理辦法是:增大poll 線程數,增大zabbix server 等待client的timeout時間增大的30s;雖然這樣效果依然不明顯。
分析用戶端:針對延遲比較嚴重的某個item單獨排查,(zabbix_agentd -c /usr/local/zabbix/conf/zabbix_agented.conf $1 $2)提示的消息為 Alarm clock,,汗。。zabbix agent timeout 時間預設為3s, 超過該時間的程式全部被截止,手動腳本執行大概10秒。現在基本有兩種修改方式:1、修改監控項;2、将zabbix agent監控 timeout時間增大至15秒。。我們采用的後者!
本文轉自 位鵬飛 51CTO部落格,原文連結:http://blog.51cto.com/weipengfei/1197112,如需轉載請自行聯系原作者