天天看点

「后端」Java 程序员必知的 GC 垃圾回收机制

作者:架构思考
之前分享过《「后端」Java 程序员必知的 JVM 基础知识总结》和《「后端」Java 程序员必知的 G1 垃圾回收器知识总结》,有朋友表示跨度太大,因此穿插本篇文章。欢迎阅读~

一、为什么要进行垃圾回收

随着程序的运行,内存中存在的实例对象、变量等信息占据的内存越来越多,其中有很多对象再也用不到,这些用不到的对象就被称之为垃圾,如果不及时进行垃圾回收,必然会带来程序性能的下降,甚至会因为可用内存不足造成一些不必要的系统异常。

垃圾回收机制主要是对 JVM 中堆内存进行管理,如果对 JVM 相关的概念还不了解,可以看一看《「后端」Java 程序员必知的 JVM 基础知识总结》这篇文章。

二、如何判定对象是否为垃圾

1、引用计数法

给对象添加一引用计数器,被引用一次计数器值就加 1;当引用失效时,计数器值就减 1;计数器为 0 时,对象就是垃圾。

优点是执行效率高,缺点是无法解决对象之间相互循环引用的问题。

2、可达性分析算法

以 GC Roots 为起始点进行搜索,判断对象的引用链是否可达,可达的对象都是存活的,不可达的对象可被回收。GC Roots 一般包含以下内容:

  • 虚拟机栈中局部变量表中引用的对象
  • 本地方法栈中 JNI 中引用的对象
  • 方法区中类静态属性引用的对象
  • 方法区中的常量引用的对象

对象死亡(被回收)前的最后一次挣扎:

即使在可达性分析算法中不可达的对象,也并非是“必死不可”,这时候它们暂时处于“缓刑”阶段,要真正宣告一个对象死亡,至少要经历两次标记过程。

第一次标记:如果对象在进行可达性分析后发现没有与 GC Roots 相连接的引用链,那它将会被第一次标记;

第二次标记:在第一次标记后接着会进行一次筛选,筛选的条件是此对象是否有必要执行 finalize() 方法。在 finalize() 方法中没有重新与引用链建立关联关系的,将被进行第二次标记。

第二次标记成功的对象将真的会被回收,如果对象在 finalize() 方法中重新与引用链建立了关联关系,那么将会逃离本次回收,继续存活。

三、回收垃圾的算法

回收垃圾的算法主要有 4 种:标记清除算法, 标记整理算法,复制算法,分代收集算法。下面分别介绍。

1、标记清除

标记:从 GC Roots 为起始点进行扫描,如果是活动对象,则程序会在对象头部打上标记。

清除:对堆内存从头到尾进行线性遍历,回收不可达对象。

「后端」Java 程序员必知的 GC 垃圾回收机制

标记清除

但是,标记清除算法会产生大量不连续的内存碎片,导致无法给大对象分配内存。例如上图中 B 与 E 之间只剩 2 格,若有一个新对象要占用 3 格,则需要开辟另外的内存或者 Full GC。

2、标记整理

标记:从 GC Roots 为起始点进行扫描,如果是活动对象,则程序会在对象头部打上标记。

整理:移动所有存活对象,且按照内存地址次序依次排列,然后将末端以后的内存地址全部回收。

「后端」Java 程序员必知的 GC 垃圾回收机制

标记整理

弥补了标记清除算法的不足,不会产生内存碎片。但是需要移动大量对象,处理效率比较低。

3、复制算法

将内存划分为大小相等的两块,每次只使用其中一块,当这一块内存用完了就将还存活的对象复制到另一块上面,然后再把使用过的内存空间进行一次清理。

「后端」Java 程序员必知的 GC 垃圾回收机制

复制算法

不会产生内存碎片问题,顺序分配内存,执行效率高,但每次只使用了一半的内存,未免有点浪费。

4、分代收集

分代收集实际上就是将上述 3 种算法综合起来,针对不同的区域,采用不同的方法,按照对象的生命周期的不同划分区域,采用不同的垃圾回收算法,以提高 JVM 回收效率。

Java 堆分为两部分,Java 堆 = 新生代 + 老年代,默认分别占堆空间为 1/3、2/3;其中,新生代 = Eden + From Survivor + To Survivor,默认为 8:1:1。这样划分是由于对象生存周期的特殊性,针对不同的对象,采用不同的方法。

「后端」Java 程序员必知的 GC 垃圾回收机制

Java 堆内存划分

新生代使用:复制算法

老年代使用:标记清除 或 标记整理 算法

所有的对象都在 Eden 区创建,由于大部分对象都是“朝生夕灭”,只有少量对象能存活下来,所以在新生代采用复制算法,只有少量对象需要复制,这样最划算。

当 Eden 区满了,那么就会触发一次 Young GC,也就是年轻代垃圾回收。少量有用的对象会复制到 From 区。这样整个Eden区就被清理干净了,可以继续创建新的对象。

当 Eden 区再次被用完,就再触发一次 YoungGC,这个时候跟刚才稍稍有点区别。这次触发 Young GC 后,会将 Eden 区与 From 区还在被使用的对象复制到 To 区,再下一次 YoungGC 的时候,则是将 Eden 区与 To 区中的还在被使用的对象复制到 From 区。

经过若干次 YoungGC 后,有些对象在 From 与 To 之间来回游荡,这时候 From 区与 To 区亮出了底线(阈值),这些家伙要是到现在还没挂掉,对不起,一起复制老年代吧。

而在老年代,大部分对象任然会继续存活下来,此时采用标记整理或者标记清除算法,这样最划算。

对象如何晋升到老年代?

1、经历一定次数的 Minor GC 任然存活的对象,默认 15 次;

2、Eden 区或 Survivor 区域存放不下的对象;

3、新生成的大对象,直接放入老年代。

四、常见的垃圾收集器

Serial 垃圾收集器(单线程,复制算法):

Serial 是单线程收集,进行垃圾收集时必须暂停所有工作线程。但是它简单高效,JVM Client 模式下默认的年轻代收集器。

「后端」Java 程序员必知的 GC 垃圾回收机制

串行收集器

ParNew 垃圾收集器(多线程,复制算法):

ParNew 是多线程收集器,是 CMS 默认的新生代垃圾回收器,其他行为特点与 Serial 一样。

Parallel Scavenge 垃圾收集器(多线程,复制算法):

Parallel Scavenge 和 ParNew 一样,都是多线程、新生代垃圾收集器。两者的区别在于:

Parallel Scavenge 追求 CPU 吞吐量,能够在较短时间内完成指定任务,因此适合没有交互的后台计算;

ParNew 追求降低用户停顿时间,适合交互式应用。

Serial Old 垃圾收集器(单线程,标记整理算法):

Serial Old 收集器是 Serial 的老年代版本,都是单线程收集器,都适合客户端应用。它们唯一的区别就是:Serial Old 工作在老年代,使用“标记-整理”算法;Serial 工作在新生代,使用“复制”算法。

CMS 垃圾收集器(标记清楚算法):

CMS (Concurrent Mark Sweep,并发标记清除) 收集器是以获取最短回收停顿时间为目标的收集器(追求低停顿),它在垃圾收集时,用户线程 和 GC 线程并发执行,因此在垃圾收集过程中不会感到明显的卡顿。

具体执行过程如下图:初始标记 (Initial Mark) —> 并发标记 (Concurrent Mark) —> 重新标记 (Remark) —> 并发清除 (Concurrnet Sweep)。

「后端」Java 程序员必知的 GC 垃圾回收机制

并发执行

  1. 初始标记 (Initial Mark):仅仅只是标记一下 GC Roots 能直接关联到的对象,速度很快,需要 Stop The World。
  2. 并发标记 (Concurrent Mark):从 GC Roots 的直接关联对象开始遍历整个对象图的过程,耗时较长,但不需要停顿用户线程,可与垃圾收集器线程一起并发执行。
  3. 重新标记 (Remark):该阶段是为了修正并发标记期间,因用户程序运作而导致标记产生变动的那一部分对象的标记记录,这个阶段需要 Stop The World,而且停顿时间通常比初始阶段稍长一些,但也远比并发标记阶段的时间短。
  4. 并发清除 (Concurrnet Sweep):清理删除掉标记阶段判断已经死亡的对象,由于不需要移动存活对象,所有这个阶段可以和用户线程并发执行。

CMS 收集器是并发收集,有两次 Stop The Words,两次标记,因为 GC 线程和应用线程同时执行,好比你妈在打扫房间,你还在扔纸屑,可能产生新的引用关系。

CMS 的缺点:吞吐量低,无法处理浮动垃圾,导致频繁 Full GC,使用“标记-清除”算法产生碎片空间。

文章来源:https://www.jianshu.com/p/2e926823779d

继续阅读