JVM 垃圾收集与 GC 算法_vlambda技术博客

vlambda
2021-06-09

JVM 垃圾收集与 GC 算法

在前文 JVM 虚拟机与对象创建过程中了解到 JVM 运行时的内存模型，既然使用了内存就要考虑如何回收内存。GC 需要完成的三件事情：

哪些内存需要回收？
什么时候回收？
如何回收？

对于程序计数器、虚拟机栈、本地方法栈来说，由于他们是跟随当前线程的生命周期，当线程销毁时其占用的内存自然回收。

而 Java 堆和方法区则不一定，一个接口的多个实现类需要的内存可能不一样，一个方法中多个分支所占内存也可能不一样。所以就需要在动态分配与内存回收的基础上实施监控和内存回收。

哪些内存需要回收

在堆中存放着 Java 中几乎所有对象的实例，那么已经"死去"（没有引用，不可能再被使用）的对象当然是需要回收的。

一、判断对象是否存活

1.1 引用计数法

原理：给对象添加一个引用计数器，每当有地方引用时计数器加 1，引用失效时减 1。当该对象引用为 0 时，判定对象失效
优点：实现简单，判定效率高
缺点：很难解决对象之间循环引用的问题

1.2 可达性分析法

原理：和 GC Roots 直接或间接关联的对象是有效对象，反之则是无效对象。
Java 中可作为 GC Roots 的对象：
虚拟机栈（栈帧中的本地变量表）中引用的对象；
方法区中类静态属性引用的对象；
方法区中常量引用的对象；
本地方法栈中 JNI（Native 方法）引用的对象。
备注：目前主流语音均使用可达性分析法来判断对象是否需要回收。

什么时候回收

当 JVM 经过可达性分析法筛选出实效对象时，并不是马上清除，而是进行标记并判断是否回收：

判断对象是否覆盖了 finalize() 方法

如果覆盖了 finalize() 方法，那么将 finalize() 放到 F-Queue 队列中
如果未覆盖该方法，则直接回收

执行 F-Queue 队列中的 finalize() 方法
由虚拟机自动建立一个优先级较低的线程去执行 F-Queue 中的 finalize() 方法，这里的执行只是触发这些方法并不保证会等待它执行完毕。如果 finalize() 方法作了耗时操作，虚拟机会停止执行并将该对象清除。
对象销毁或重生
在 finalize() 方法中，将 this 赋值给某一个引用，那么该对象就重生了。如果没有引用，该对象会被回收。

方法区的内存回收

Java 虚拟机规范中说不需要方法区实现垃圾收集，因为方法区中存放的都是一些生命周期较长的类信息、常量、静态变量。方法区就像是堆的老年代，每次垃圾回收只有少量垃圾被清除：

废弃的常量：
当前系统中没有任何对象引用常量池中的该常量，则是废弃常量
废弃的类判断规则：
该类所有实例都被回收；
加载该类的 ClassLoader 已经被回收；
该类对应的 Class 对象没有引用，也无法通过反射访问该类的方法。

如何回收

通过上文了解到垃圾收集、内存回收的主要区域是 Java 堆，JVM 回收的对象是那些没有引用的对象、
常量、类等。要注意的是 JVM 筛选出需要清除的对象时并不是马上进行回收，而是进行标记并判断是否覆写 finalize() 方法，然后再依据一定规则进行 GC。

接下来记录一下几种常见的 GC 算法的思想以及发展过程，相信今后还会有更多优秀的算法问世。

1. 标记 - 清除算法

最基础的收集算法是"标记 - 清除"算法，之所以说它是最基础的是因为它逻辑简单、使用简便，而且后续的收集算法大多基于这种算法的不足而优化的。

标记 - 清除算法分为两个阶段：

标记阶段：标记的过程就是前面的可达性分析法执行的过程。首先遍历所有 GC Roots 对象，对从 GC Roots 对象可达的对象都打上一个可达标识。这个可达标识一般记录在对象 header 中（一个对象一般包括对象头、实例数据、对齐填充三个部分），表示该对象可以被 GC Roots 访问。
可参考下图，图是我扒来的...

标记阶段

可以看到，上图 B、E、F、G、J、K 对象是可达对象，所以这些对象的对象头中就会记录可达信息。

清除阶段：清除阶段是对堆内存进行遍历，通过读取这些对象的 header 信息来获取对象是否标记可达。如果未标记则表示这些对象没有引用，就可以进行回收。

JVM 垃圾收集与 GC 算法

清除阶段

标记 - 清除算法主要不足有两个：

效率问题：标记和清除都需要遍历，效率不高；
空间问题：标记清除后会产生大量不连续的内存水平，空间碎片太多会导致大内存对象无法生成而频繁进行 GC。

2. 复制算法

为了解决效率问题，复制算法出现了。

原理：将可用内存按容量大小分为大小相等的两块，每次只使用其中一块。当这一块内存使用完毕，就将存活的对象复制到另一块上，然后再把这一块所有的对象一次性清理掉。
图解：

复制算法回收前

先将内存区域分为大小相等的两块，只使用其中一块，并标记可达对象。

JVM 垃圾收集与 GC 算法

复制算法回收后

当一块内存使用完毕以后，将其中的可达对象复制到另一块，然后再一次性清除原理的内存空间。

优点：简答高效，内存相对整齐
缺点：
1.将内存分为一半，代价略高。
2.如果对象存活率高，需要复制的对象比较多，产生效率问题。
优化：
在新生代中，由于大量的对象都是"朝生夕死"，也就是说一次垃圾收集后存活对象较少，因此我们可以把内存划分为三块：Eden、Survior1、Survior2，大小比例为 8:1:1。分配内存时只使用 Eden + Survior1，当这里的内存将满时，JVM 会出发一次 MinorGC，清除掉废弃对象，并将存活对象复制到另一块 Survior2 中。那么接下来就使用 Eden + Survior2 进行内存分配。
通过这种方式只需浪费 10% 的内存空间即可实现复制清除算法，同时避免了内存碎片的问题。

3. 标记 - 整理算法

原理：标记过程与 "标记 - 清除" 算法相同，但后续不是直接对可回收对象进行清理，而是让所有存活对象都向一端移动，然后直接清理掉一端边界外的内存。

回收前

回收后

优点：无需复制，保证效率。内存规整。
缺点：效率不如复制算法。

三种算法排行

在了解了以上三种 GC 算法以后，作一个简单的排行：

效率：复制算法 > 标记 - 整理算法 > 标记 - 清除算法（标记 - 清除会产生内存碎片，需要大内存时会出发新一轮 GC）。

内存规整率：复制算法 = 标记 - 整理 > 标记 - 清除。

内存利用率：标记 - 整理算法 = 标记 - 清除算法 > 复制算法。

4. 分代收集算法

当前商业虚拟机的垃圾收集都采用 "分代收集" 算法，这种相当于结合以上几种算法进行结合。

原理：把 Java 堆分为新生代和老年代，根据各个对象的年代采用最合适的收集算法。
针对新生代的对象，采取灵活比例的复制算法，只需要复制少量存活对象就可以完成收集。
针对老年代的对象，因为这些对象存活率高，没有额外空间进行分配担保，必须使用标记 - 清除或标记 - 整理算法。

Java 四种引用

自 JDK 1.2 以后，Java 对引用的概念进行了扩充，分为了强引用(String Reference)、软引用(Soft Reference)、弱引用(Weak Reference)、虚引用(Phantom Reference) 四种。

强引用：类似 "Object obj = new Object()" 属于强引用，只有引用还在，垃圾收集器永远不会回收掉被引用对象。
软引用：用来描述一些还有用但不是必须的对象。对于软引用相关的对象，在系统将要发生 OOM（内存溢出）时，将会把软引用对象列进回收范围并进行二次回收。如果这次回收后还是没有足够内存才会抛出 OOM 异常。JDK 1.2 后提供 SoftReference 类来实现。
弱引用：也是用来描述非必须对象，但它的强度比软引用更弱，被弱引用的对象只会生存到下一次垃圾回收之前。当进行 GC 时，无论当前内存是否足够，都会回收掉弱引用的对象。弱引用对应的类为 WeakReference。
虚引用：又称幽灵引用或幻影引用，最弱的引用关系。无法通过虚引用获取对象的实例，为对象设置虚引用唯一的目的就是能在该对象被垃圾收集器回收时收到一个系统通知。对应 PhantomReference 类。

垃圾收集器的各种实现

垃圾收集器有各种版本，包括 Serial 收集器（单线程收集器）、ParNew 收集器（Serial 多线程版本）、Parallel Scavenge 收集器（复制算法，并行执行，设置吞吐量）、Serial Old 收集器（Serial 老年代版本）、Parallel Old 收集器（Parallel Scavenge 老年代版本）、CMS 收集器（追求最短回收停顿）。在此不进行叙述，想要深入学习的可自行参考下方资料。

参考资料：

《深入理解Java虚拟机》
深入理解JVM(三)——垃圾收集策略详解
Java虚拟机：GC算法深度解析

vlambda博客
学习文章列表