引言

本文記錄一次線上 GC 問題的排查過程與思路，希望對各位讀者有所幫助。過程中也走了一些彎路，現在有時間沉澱下來思考并總結出來分享給大家，希望對大家今後排查線上 GC 問題有幫助。

背景

服務新功能發版一周後下午，突然收到 CMS GC 告警，導緻單台節點被拉出，随後叢集内每個節點先後都發生了一次 CMS GC，拉出後的節點垃圾回收後接入流量恢複正常（事後排查發現被重新開機了）。

告警資訊如下（已脫敏）：

多個節點幾乎同時發生 GC 問題，且排查自然流量監控後發現并未有明顯增高，基本可以确定是有 GC 問題的，需要解決。

排查過程

GC 日志排查

GC 問題首先排查的應該是 GC 日志，日志能能夠清晰的判定發生 GC 的那一刻是什麼導緻的 GC，通過分析 GC 日志，能夠清晰的得出 GC 哪一部分在出問題，如下是 GC 日志示例：

0.514: [GC (Allocation Failure) [PSYoungGen: 4445K->1386K(28672K)] 168285K->165234K(200704K), 0.0036830 secs] [Times: user=0.00 sys=0.00, real=0.00 secs]
0.518: [Full GC (Ergonomics) [PSYoungGen: 1386K->0K(28672K)] [ParOldGen: 163848K->165101K(172032K)] 165234K->165101K(200704K), [Metaspace: 3509K->3509K(1056768K)], 0.0103061 secs] [Times: user=0.05 sys=0.00, real=0.01 secs]
0.528: [GC (Allocation Failure) [PSYoungGen: 0K->0K(28672K)] 165101K->165101K(200704K), 0.0019968 secs] [Times: user=0.00 sys=0.00, real=0.00 secs]
0.530: [Full GC (Allocation Failure) [PSYoungGen: 0K->0K(28672K)] [ParOldGen: 165101K->165082K(172032K)] 165101K->165082K(200704K), [Metaspace: 3509K->3509K(1056768K)], 0.0108352 secs] [Times: user=0.03 sys=0.00, real=0.01 secs]

如上 GC 日志能很明顯發現導緻 Full GC 的問題是：Full GC 之後，新生代記憶體沒有變化，老年代記憶體使用從 165101K 降低到 165082K （幾乎沒有變化）。這個程式最後記憶體溢出了，因為沒有可用的堆記憶體建立 70m 的大對象。

但是，生産環境總是有奇奇怪怪的問題，由于服務部署在 K8s 容器，且運維有對服務心跳檢測，當程式觸發 Full GC 時，整個系統 Stop World，連續多次心跳檢測失敗，則判定為目前節點可能出故障（硬體、網絡、BUG 等等問題），則直接拉出目前節點，并立即重建，此時之前列印的 GC 日志都是在目前容器卷内，一旦重建，所有日志全部丢失，也就無法通過 GC 日志排查問題了。

JVM 監控埋點排查

上述 GC 日志丢失問題基本無解，發生 GC 則立即重建，除非人為幹預，否則很難拿到當時的 GC 日志，且很難預知下次發生 GC 問題時間（如果能上報 GC 日子就不會有這樣的問題，事後發現有，但是我沒找到。。）。

此時，另一種辦法就是通過 JVM 埋點監控來排查問題。企業應用都會配備完備的 JVM 監控看闆，就是為了能清晰明了的看到“事故現場”，通過監控，可以清楚的看到 JVM 内部在時間線上是如何配置設定記憶體及回收記憶體的。

JVM 監控用于監控重要的 JVM 名額，包括堆記憶體、非堆記憶體、直接緩沖區、記憶體映射緩沖區、GC 累計資訊、線程數等。

主要關注的核心名額如下：

GC（垃圾收集）瞬時和累計詳情FullGC 次數YoungGC 次數FullGC 耗時YoungGC 耗時
堆記憶體詳情堆記憶體總和堆記憶體老年代位元組數堆記憶體年輕代 Survivor 區位元組數堆記憶體年輕代 Eden 區位元組數已送出記憶體位元組數
元空間元空間位元組數
非堆記憶體非堆記憶體送出位元組數非堆記憶體初始位元組數非堆記憶體最大位元組數
直接緩沖區DirectBuffer 總大小（位元組）DirectBuffer 使用大小（位元組）
JVM 線程數線程總數量死鎖線程數量建立線程數量阻塞線程數量可運作線程數量終結線程數量限時等待線程數量等待中線程數量

發生 GC 問題，重點關注的就是這幾個名額，大緻就能圈定 GC 問題了。

堆記憶體排查

首先檢視堆記憶體，确認是否有記憶體溢出（指無法申請足夠的記憶體導緻），對内監控如下：

可以看到發生 Full GC 後，堆記憶體明顯降低了很多，但是在未發生大量 Full GC 後也有記憶體回收到和全量 GC 同等位置，是以可以斷定堆記憶體是可以正常回收的，不是導緻大量 Full GC 的元兇。

非堆記憶體排查

非堆記憶體指 Metaspace 區域，監控埋點如下：

可以看到發生告警後，非堆記憶體瞬間回收很多（因為伺服器被健康檢查判定失效後重建，相當于重新啟動，JVM 重新初始化），此處如果有 GC 排查經驗的人一定能立即笃定，metaspace 是有問題的。

Metaspace 是用來幹嘛的？JDK8 的到來，JVM 不再有 PermGen（永久代），但類的中繼資料資訊（metadata）還在，隻不過不再是存儲在連續的堆空間上，而是移動到叫做 “Metaspace” 的本地記憶體（Native memory）中。

那麼何時會加載類資訊呢？

程式運作時：當運作 Java 程式時，該程式所需的類和方法。
類被引用時：當程式首次引用某個類時，加載該類。
反射：當使用反射 API 通路某個類時，加載該類。
動态代理：當使用動态代理建立代理對象時，加載該對象所需的類。

由上得出結論，如果一個服務内沒有大量的反射或者動态代理等類加載需求時，講道理，程式啟動後，類的加載數量應該是波動很小的（不排除一些異常堆棧反射時也會加載類導緻增加），但是如上監控顯示，GC 後，metaspace 的記憶體使用量一直緩步增長，即程式内不停地制造“類”。

檢視 JVM 加載類監控如下：

由上監控，确實是加載了大量的類，數量趨勢和非堆使用量趨勢吻合。

檢視目前 JVM 設定的非堆記憶體大小如下：

MetaspaceSize & MaxMetaspaceSize = 1024 M，由上面非堆記憶體使用監控得出，使用量已接近 1000 M，無法在配置設定足夠的記憶體來加載類，最終導緻發生 Full GC 問題。

程式代碼排查

由上面排查得出的結論：程式内在大量的建立類導緻非堆記憶體被打爆。結合目前服務記憶體在大量使用 Groovy 動态腳本功能，大機率應該是建立腳本出了問題，腳本建立動态類代碼如下：

public static GroovyObject buildGroovyObject(String script) {
    GroovyClassLoader classLoader = new GroovyClassLoader();
    try {
        Class<?> groovyClass = classLoader.parseClass(script);
        GroovyObject groovyObject = (GroovyObject) groovyClass.newInstance();
        classLoader.clearCache();

        log.info("groovy buildScript success: {}", groovyObject);
        return groovyObject;
    } catch (Exception e) {
        throw new RuntimeException("buildScript error", e);
    } finally {
        try {
            classLoader.close();
        } catch (IOException e) {
            log.error("close GroovyClassLoader error", e);
        }
    }
}

線上打開日志，确實證明了在不停的建立類。

腳本建立類導緻堆記憶體被打爆，之間也是踩過坑的，針對同一個腳本（MD5 值相同），則會直接拿緩存，不會重複建立類，緩存 check 邏輯如下：

public static GroovyObject buildScript(String scriptId, String script) {
    Validate.notEmpty(scriptId, "scriptId is empty");
    Validate.notEmpty(scriptId, "script is empty");

    // 嘗試緩存擷取
    String currScriptMD5 = DigestUtils.md5DigestAsHex(script.getBytes());
    if (GROOVY_OBJECT_CACHE_MAP.containsKey(scriptId)
            && currScriptMD5.equals(GROOVY_OBJECT_CACHE_MAP.get(scriptId).getScriptMD5())) {
        log.info("groovyObjectCache hit, scriptId: {}", scriptId);
        return GROOVY_OBJECT_CACHE_MAP.get(scriptId).getGroovyObject();
    }

    // 建立
    try {
        GroovyObject groovyObject = buildGroovyObject(script);

        // 塞入緩存
        GROOVY_OBJECT_CACHE_MAP.put(scriptId, GroovyCacheData.builder()
                .scriptMD5(currScriptMD5)
                .groovyObject(groovyObject)
                .build());
    } catch (Exception e) {
        throw new RuntimeException(String.format("scriptId: %s buildGroovyObject error", scriptId), e);
    }

    return GROOVY_OBJECT_CACHE_MAP.get(scriptId).getGroovyObject();
}

此處代碼邏輯在之前的測試中都是反複驗證過的，不會存在問題，即隻有緩存 Key 出問題導緻了類的重複加載。結合最近修改上線的邏輯，排查後發現，scriptId 存在重複的可能，導緻不同腳本，相同 scriptId 不停重複加載（加載的頻次 10 分鐘更新一次，是以非堆使用緩慢上升）。

此處埋了一個小坑：加載的類使用 Map 存儲的，即同一個 cacheKey 調用 Map.put() 方法，重複加載的類會被後面加載的類給替換掉，即之前加載的類已經不在被 Map 所“持有”，會被垃圾回收器回收掉，按理來說 Metaspace 不應該一直增長下去！？

提示：類加載與 Groovy 類加載、Metaspace 何時會被回收。

由于篇幅原因，本文就不在此處細究原因了，感興趣的朋友自行 Google 或者關注一下我，後續我再專門開一章詳解下原因。

總結

知其然知其是以然。

想要系統性地掌握 GC 問題處理方法，還是得了解 GC 的基礎：基礎概念、記憶體劃分、配置設定對象、收集對象、收集器等。掌握常用的分析 GC 問題的工具，如 gceasy.io 線上 GC 日志分析工具，此處筆者參照了美團技術團隊文章 Java 中 9 種常見的 CMS GC 問題分析與解決收益匪淺，推薦大家閱讀。

原文連結：https://www.cnblogs.com/gugujifly/p/17079852.html

記一次線上FGC問題排查

引言

背景

排查過程

GC 日志排查

JVM 監控埋點排查

堆記憶體排查

非堆記憶體排查

程式代碼排查

總結

繼續閱讀

一次通路Redis延時高問題排查與總結

crontab 不起作用問題排查

Tidb duration 耗時異常上升案例

用這個開源項目，網絡小白也能搞定容器網絡問題排查

[架構之路-53]：架構師 - 嵌入式軟體常見難查問題與解決辦法大總結-2-非技術性問題

實戰總結｜記一次消息隊列堆積的問題排查

Java服務程序異常消失退出排查思路

K8S問題排查-更新K8S後apiserver的token超期問題

對于#工裝的圖紙版本管控方案#，通常可以采取以下幾個步驟：版本命名規範：建立清晰的版本命名規範，例如使用數字、字母或符号

0-1 千萬級直播項目實戰線上攔截器中使用ThreadLocal失效問題排查

一次因線程池使用不當造成生産事故的排查記錄與思考

arthas 線上診斷工具

[1][記一次線上問題處理]服務系統時間戳不準确導緻的線上異常

Springboot 使用Filter，攔截器執行了兩次問題剖析

一次消息隊列堆積問題排查，我把坑踩了個遍！

一次線上服務fullGC原因排查二、工具排查三、排查結果分析四、解決