天天看點

Java服務,CPU100%問題如何快速定位?

上篇《Java服務,記憶體OOM問題如何快速定位?》釋出後,有朋友在評論留言,問CPU100%的性能問題,如何找到相關服務,如何定位問題代碼,也非常考驗技術人的功底,今天簡單說下思路。 

假設,伺服器上部署了若幹Java站點服務,以及若幹Java微服務,突然收到運維的CPU異常告警。如何定位是哪個服務程序導緻CPU過載,哪個線程導緻CPU過載,哪段代碼導緻CPU過載?

簡要步驟如下:

(1)找到最耗CPU的程序;

(2)找到最耗CPU的線程;

(3)檢視堆棧,定位線程在幹嘛,定位對應代碼;

步驟一、找到最耗CPU的程序

工具:top方法:

  • 執行top -c ,顯示程序運作資訊清單
  • 鍵入P (大寫p),程序按照CPU使用率排序

圖示:

Java服務,CPU100%問題如何快速定位?

如上圖,最耗CPU的程序PID為10765。 步驟二:找到最耗CPU的線程工具:top方法:

  • top -Hp 10765 ,顯示一個程序的線程運作資訊清單
  • 鍵入P (大寫p),線程按照CPU使用率排序
Java服務,CPU100%問題如何快速定位?

如上圖,程序10765内,最耗CPU的線程PID為10804。

 步驟三:檢視堆棧,定位線程在幹嘛,定位對應代碼

首先,将線程PID轉化為16進制。工具:printf方法:printf "%xn" 10804圖示:

Java服務,CPU100%問題如何快速定位?

如上圖,10804對應的16進制是0x2a34,當然,這一步可以用電腦。 之是以要轉化為16進制,是因為堆棧裡,線程id是用16進制表示的。 接着,檢視堆棧,找到線程在幹嘛。工具:jstack方法:jstack 10765 | grep '0x2a34' -C5 --color

  • 列印程序堆棧
  • 通過線程id,過濾得到線程堆棧
Java服務,CPU100%問題如何快速定位?

如上圖,找到了耗CPU高的線程對應的線程名稱“AsyncLogger-1”,以及看到了該線程正在執行代碼的堆棧。

最後,根據堆棧裡的資訊,找到對應的代碼,搞定!

 希望對經常進行線上CPU問題排查的同學有幫助,如果有更好的實踐,也歡迎分享。

本文轉自“架構師之路”公衆号,58沈劍提供。