天天看點

Java服務,CPU100%問題如何快速定位?

上篇《Java 服務,記憶體 OOM 問題如何快速定位?》釋出後,有朋友在評論留言,問 CPU100% 的性能問題,如何找到相關服務,如何定位問題代碼,也非常考驗技術人的功底,今天簡單說下思路。

假設,伺服器上部署了若幹 Java 站點服務,以及若幹 Java 微服務,突然收到運維的 CPU 異常告警。如何定位是哪個服務程序導緻 CPU 過載,哪個線程導緻 CPU 過載,哪段代碼導緻 CPU 過載?

簡要步驟如下:

(1)找到最耗 CPU 的程序;

(2)找到最耗 CPU 的線程;

(3)檢視堆棧,定位線程在幹嘛,定位對應代碼;

步驟一、找到最耗 CPU 的程序

工具:top

方法:

  • 執行 top -c ,顯示程序運作資訊清單
  • 鍵入 P (大寫 p),程序按照 CPU 使用率排序

圖示:

Java服務,CPU100%問題如何快速定位?

如上圖,最耗 CPU 的程序 PID 為 10765。

步驟二:找到最耗 CPU 的線程

  • top -Hp 10765 ,顯示一個程序的線程運作資訊清單
  • 鍵入 P (大寫 p),線程按照 CPU 使用率排序
Java服務,CPU100%問題如何快速定位?

如上圖,程序 10765 内,最耗 CPU 的線程 PID 為 10804。

**步驟三:檢視堆棧,定位線程在幹嘛,定位對應代碼

**首先,将線程 PID 轉化為 16 進制。

工具:printf

方法:printf "%x\n" 10804

Java服務,CPU100%問題如何快速定位?

如上圖,10804 對應的 16 進制是 0x2a34,當然,這一步可以用電腦。

之是以要轉化為 16 進制,是因為堆棧裡,線程 id 是用 16 進制表示的。

接着,檢視堆棧,找到線程在幹嘛。

工具:jstack

方法:jstack 10765 | grep '0x2a34' -C5 --color

  • 列印程序堆棧
  • 通過線程 id,過濾得到線程堆棧

繼續閱讀