Java 使用了垃圾收集器来代替手动管理内存,对于垃圾收集器来说,无论哪种,其核心思想都是做两件事:
最直接,最容易想到的标记方法是引用计数法,顾明思议,记录每个对象被引用的个数,如果为0,则为死亡对象。该方法实现简单,判断效率高,但很难解决对象之间相互循环引用的问题。
在JVM中使用了可达性分析计算的方式来标记存活对象,GC 定义了一些特殊的对象作为 GC Roots:
以 GC Roots 作为起始点,沿着引用路径不断搜索,同时标记搜索到的对象为存活。
注意,在标记阶段,需要停止应用线程(Stop the World),因为没有办法在应用程序不断改变引用关系的同时一边标记。暂停的时间取决于存活对象的多少,存活的对象越多,需要标记的时间越长。
在学术上,标记清除算法是最具代表性的算法:
Marking: 通过 GC Roots 开始搜索标记可达的对象
Sweeping: 使得被未标记的对象占用的内存空间可以被之后分配使用
但是这样直接 Sweep 会存在两个问题:
为了避免这个问题,还需要做一次碎片整理
还有一种更简单的方法,将内存分为两块,每次只使用其中的一块区域,发生 GC 时,将存活的对象复制到另一个区域中,这样也不会出现碎片的问题,此外,复制可以在标记的同时进行,更加高效。缺点也很明显,需要更多的内存。这种算法被称为标记-复制算法。
研究人员观察到,应用程序内的大多数分配分为两类:
基于这个假设,虚拟机将内存分为了两个代,分别为 新生代(Young Generation), 和老年代(Old Generation or Tenured)。
那么针对不同代的特点,可以有针对性的进行算法优化,一般来说将算法分为 Mionr GC(只回收新生代对象)和 Full GC(全局回收)。 这个假设也存在两个问题:
通常情况下 Eden 是对象创建时被分配的区域。由于涉及到多个线程同时创建对象,Eden 被划分成了一个或多个 Thread Local Allocation Buffer (TLAB) ,简单来说,每个线程都被分配了一块区域用于本线程的对象分配(避免的线程同步代价),如果分配的内存不够使用了,则使用共有的部分(申请新的TLAB),如果再不够,则触发一次新生代 GC(Minor GC) ,如果清理后的内存仍然不够,则将对象分配在老年代。
在 Mionr GC 时,首先通过 GC Roots 扫描标记所有存活的对象,需要注意之前提到过,老年代的对象也有可能引用新生代对象。对于这个问题,JVM 使用了 card-marking 来避免老年代的扫描。HotSpot 使用了卡表(Card Table)的技术,将整个堆划分为一个个大小为512字节的卡,如果卡中的对象可能指向新生代对象引用,那么这张卡是脏的,同时 JVM 维护了一个卡表,每张卡都有一个对应的标识位来表示是否是脏卡。那么在进行 Minor GC 时,只需将脏卡中的对象将入到 GC Roots 里,而不用扫描整个老年代。
完成标记后,将所有存活的对象复制到其中一个 Survivor 区中,此后整个 Eden 区的内存都可以重新被使用了。这个算法也叫做“标记-复制“算法(Mark and Copy)。 Survivor 分为 from 和 to 两个区域(每次GC后身份互换),其中 to 区域永远是空的,当GC完成标记后,Eden 和 from 区域的存活对象都复制到 to 区域中,from区域清空,两个区域身份互换。
对象可能在两个 Survivor 中不断的来回复制,当复制达到一定次数时(默认15次),将被认为足够老,晋升到老年代中。此外,如果 Survivor 区域大小不够存放所有存活对象,则会将较老的对象提前晋升到老年代中。
老年代内存要大的多,并且大多数对象都不会是垃圾,并且发生GC的频率要相对小的多,所以复制算法不适用。一般来说,使用“标记-清除-整理“的算法对老年代进行回收。
图片来源及参考资料:《Plumbr Handbook Java Garbage Collection》