天天看點

jvm程式執行慢診斷手冊

轉:

原文連結

生産環境最多的幾種事故之一就是程式執行慢,如果是web服務的話,表現就是響應時間長。本文分享,從業多年形成的排查守則。

診斷步驟

系統資源檢視

首先是系統資源檢視,而且必須是在第一步。因為很多事故都是最開始慢後面就會出現卡死,被系統殺死,程式抛出異常結束等等情況,當時的狀态沒法儲存下來,不行進行複盤,是以第一步先檢視系統的資源,如果出現緊張情況,趕緊把狀态儲存。

top指令

檢視基本就是top指令,可以看到系統cpu,記憶體等資源情況。經過檢視系統資源大概可以分為以下情況。

問題:cpu使用率過高。

如果發現cpu成為了瓶頸的話,必須馬上進行線程情況和當時cpu占用情況的儲存。在糟糕的情況下,cpu可能被占滿,那時候ssh都登入不上去了,就沒法擷取當時的情況。

使用top -Hp pid擷取線程cpu使用率高的tid

printf "%x\n" tid,擷取線程id的16進制主要是為了在jstack中檢視

jstack pid|grep tid(16)

然後就會把線程cpu使用率特别高的線程棧打出來,然後可以分析這段邏輯了。

記憶體使用率過高或者沒有系統資源占用過高

jmap -dump:format=b,file=heapdump.bin pid

這裡必須打dump的原因是res過高,可能出發系統的oom killer,程序可能被系統殺死,此時不擷取,可能程序就會被殺死了。如果不是系統資源問題,堆dump以後也是要用的。

堆占用檢視

jstat -gc -h 10 pid 1000

jstat -gcutil -h 10 pid 1000

jstat -gccause -h 10 pid 1000

這裡一般是開三個視窗對比看資料的。-gc主要是關注堆的分區總大小。-gcutil主要是關注已使用的百分比。-gccause主要是關注fgc次數,時間以及gc原因。

記憶體問題的分類就比較多了,造成問題的卡頓的根本其實是gc問題。stw的時候虛拟機停頓了,導緻反應不過來了。

問題:堆記憶體占用空間接近滿

這種情況就利用mat去檢視dump分析吧,可能出現記憶體使用不合理或者記憶體洩漏,這裡需要根據代碼來分析。

問題:perm,metaspace占用接近滿

jps -lvm

檢視一下jvm參數設定,很可能是參數設定不合理,-XX:MetaspaceSize是發生gc的最小空間,這裡是不是設定太小。MaxMetaspaceSize,MaxPermSize的值是否設定太小。java6如果設定都不小而且還占滿了,那就得檢測代碼裡是不是在運作時常量池加了字元串。1.7,1.8就考慮是不是業務用了什麼位元組碼生成技術,動态做了一些位元組碼操作。

問題:system.gc()

gccause檢視gc的原因是system.gc()。需要檢測是否用了rmi,使用了直接記憶體,或者業務代碼調用了system.gc()。直接記憶體檢視現在沒有現成的工具。可以使用我在github上放着的小工具檢視。位址如下https://github.com/xpbob/jstatassist

問題:gc頻繁但不是system.gc()

空間都不是特别緊張,但是gc次數頻繁,并且不是system.gc()。那可能就是gc參數設定不對了,例如cms,老年代回收是一個2秒一次的輪訓操作,很有可能是現在的空間占用每次都是滿足gc的條件的,于是出現了這種情況。

問題:gc時間特别長

gc時間特别長,這個就從gc算法選擇還有記憶體情況來協調參數吧。但是有兩個特例,cms和g1。這兩個垃圾回收器都是有單線程回收的算法的可能的,這裡需要gc日志分析确認。

問題:堆占用不大,res特别大

這種情況可能性太大,常見的是jni,jna操作,mmap檔案,直接記憶體使用,jdk的bug。需要根據實際情況來分析。

問題: 業務問題

如果以上表現都沒有的話,那需要不斷的打jstack去看線程棧的變化。這個隻能是結合業務來看。