記一次JVM記憶體溢出排查過程

2023-07-03 02:13:23

記憶體溢出排查

- 1. 頻繁FullGC預警
- 2. 排查原因

1. 頻繁FullGC預警

1.1 頻繁FullGC告警：

時間發生在2020-07-10（周五）晚上21:15分左右，本該收拾行囊下班，突然收到頻繁FullGC預警消息，吓的菊花一緊，過一會收到接口探活告警，說明服務已經不可用了；

1.2 下線目前問題節點：

服務是3台節點部署，既然其中一台出現問題，在上層網關上将目前節點下線，保證使用者的請求不會再打到目前節點；

1.3 年青代和老年代情況：

登入監控平台檢視jvm的情況：

記一次JVM記憶體溢出排查過程

黃色線：老年代

藍色線：年青化

在21:10左右時，就已經開始發生明顯的頻繁FullGC；

1.4 YGC次數和FGC次數：

登入監控平台檢視jvm的情況：

記一次JVM記憶體溢出排查過程

藍色：目前出問題節點的YGC總次數；

記一次JVM記憶體溢出排查過程

藍色：目前出問題節點的FGC總次數；

1.4 年青代具體情況：

記一次JVM記憶體溢出排查過程

黃色：S0；

紫色：S1；

藍色：Eden；

大概在21:10 - 21: 20這段時間一直在YGC

2. 排查原因

經過上面的分析，和上次遇到的頻繁FGC問題不一樣上次的是突增，突然被記憶體被占滿，而本次的是存在緩慢的增長過程，猜測程式可能做了大批量導出；

2.1 生成dump檔案

檢視是否生成dump檔案，如果沒有生成，手動通過： jmap -dump:live,format=b,file=dump.hprof 程序号；生成dump檔案；

2.2 重新開機服務

既然記憶體快照儲存下來了，就可以放心的重新啟動服務；

2.3 檢視背景記錄檔

檢視背景記錄檔，發現使用者對一張擁有2200W記錄的表做了一次導出，但是導出的sql裡面有id值，按道理說隻會導出一條；也不會導緻程式記憶體溢出啊；

2.4 分析dump檔案

既然可疑的導出有明确指定id，不會造成大批量的資料被加載進服務，那隻能分析dump檔案

dump檔案大約28G，分析套路和記一次排查線上頻繁FullGC 過程一樣；

最後分析出來三個zip檔案，解析後檢視index.html;

記一次JVM記憶體溢出排查過程

大概占了24.3G，檢視詳細的調用棧；

記一次JVM記憶體溢出排查過程

還是出在導出的問題上；

2.5 檢視伺服器日志

經過精心排查伺服器日志發現，在使用者跳轉到查詢清單時，在沒有輸入任何查詢條件的情況下，點選過導出按鈕，造成大量記錄被加載進記憶體；

2.6 服務優化

1.導出的限制方面做控制；

2.大資料量導出考慮資料遷移到其它平台；

3.為什麼全量導出的操作沒有被記錄到記錄檔（待排查）

4.網關高耗時請求也考慮告警；

記一次JVM記憶體溢出排查過程

記憶體溢出排查

1. 頻繁FullGC預警

2. 排查原因

繼續閱讀

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

NOSQL安全攻擊

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

登入plsql 報錯 the account is locked --使用者被鎖

Effective Java 8:通用程式設計

SequoiaDB巨杉資料庫C++驅動概述

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method