JVM垃圾回收之三色標記

2021 年 2 月 7 日
筆記
JAVA, JAVA JVM

三色標記法是一種垃圾回收法，它可以讓JVM不發生或僅短時間發生STW(Stop The World)，從而達到清除JVM記憶體垃圾的目的。JVM中的CMS、G1垃圾回收器所使用垃圾回收演算法即為三色標記法。

三色標記演算法思想

三色標記法將對象的顏色分為了黑、灰、白，三種顏色。

白色：該對象沒有被標記過。（對象垃圾）

灰色：該對象已經被標記過了，但該對象下的屬性沒有全被標記完。（GC需要從此對象中去尋找垃圾）

黑色：該對象已經被標記過了，且該對象下的屬性也全部都被標記過了。（程式所需要的對象）

演算法流程

從我們main方法的根對象（JVM中稱為GC Root）開始沿著他們的對象向下查找，用黑灰白的規則，標記出所有跟GC Root相連接的對象,掃描一遍結束後，一般需要進行一次短暫的STW(Stop The World)，再次進行掃描，此時因為黑色對象的屬性都也已經被標記過了，所以只需找出灰色對象並順著繼續往下標記（且因為大部分的標記工作已經在第一次並發的時候發生了，所以灰色對象數量會很少，標記時間也會短很多）, 此時程式繼續執行，GC執行緒掃描所有的記憶體，找出掃描之後依舊被標記為白色的對象（垃圾）,清除。

具體流程:

首先創建三個集合：白、灰、黑。
將所有對象放入白色集合中。
然後從根節點開始遍歷所有對象（注意這裡並不遞歸遍歷），把遍歷到的對象從白色集合放入灰色集合。
之後遍歷灰色集合，將灰色對象引用的對象從白色集合放入灰色集合，之後將此灰色對象放入黑色集合
重複 4 直到灰色中無任何對象
通過write-barrier檢測對象有變化，重複以上操作
收集所有白色對象（垃圾）

三色標記存在問題

浮動垃圾：並發標記的過程中，若一個已經被標記成黑色或者灰色的對象，突然變成了垃圾，由於不會再對黑色標記過的對象重新掃描,所以不會被發現，那麼這個對象不是白色的但是不會被清除，重新標記也不能從GC Root中去找到，所以成為了浮動垃圾，浮動垃圾對系統的影響不大，留給下一次GC進行處理即可。
對象漏標問題（需要的對象被回收）：並發標記的過程中，一個業務執行緒將一個未被掃描過的白色對象斷開引用成為垃圾（刪除引用），同時黑色對象引用了該對象（增加引用）（這兩部可以不分先後順序）；因為黑色對象的含義為其屬性都已經被標記過了，重新標記也不會從黑色對象中去找，導致該對象被程式所需要，卻又要被GC回收，此問題會導致系統出現問題，而CMS與G1，兩種回收器在使用三色標記法時，都採取了一些措施來應對這些問題，CMS對增加引用環節進行處理（Increment Update），G1則對刪除引用環節進行處理(SATB)。

解決辦法

在JVM虛擬機中有兩種常見垃圾回收器使用了該演算法：CMS(Concurrent Mark Sweep)、G1(Garbage First) ，為了解決三色標記法對對象漏標問題各自有各自的法:

CMS回顧

CMS(Concurrent Mark Sweep)收集器是一種以獲取最短回收停頓時間為目標的收集器。目前很大一部分的Java應用集中在互聯網網站或者基於瀏覽器的B/S系統的服務端上，這類應用通常都會較為關注服務的響應速度，希望系統停頓時間儘可能短，以給用戶帶來良好的交互體驗。CMS收集器就非常符合這類應用的需求(但是實際由於某些問題,很少有使用CMS作為主要垃圾回收器的)。

從名字（包含「Mark Sweep」）上就可以看出CMS收集器是基於標記-清除演算法實現的，它的運作過程相對於前面幾種收集器來說要更複雜一些，整個過程分為四個步驟，包括：
1）初始標記（CMS initial mark）
2）並發標記（CMS concurrent mark）
3）重新標記（CMS remark）
4）並發清除（CMS concurrent sweep）

其中初始標記、重新標記這兩個步驟仍然需要「Stop The World」。初始標記僅僅只是標記一下GCRoots能直接關聯到的對象，速度很快；

並發標記階段就是從GC Roots的直接關聯對象開始遍歷整個對象圖的過程，這個過程耗時較長但是不需要停頓用戶執行緒，可以與垃圾收集執行緒一起並發運行；

重新標記階段則是為了修正並發標記期間，因用戶程式繼續運作而導致標記產生變動的那一部分對象的標記記錄，這個階段的停頓時間通常會比初始標記階段稍長一些，但也遠比並發標記階段的時間短；

最後是並發清除階段，清理刪除掉標記階段判斷的已經死亡的對象，由於不需要移動存活對象，所以這個階段也是可以與用戶執行緒同時並發的。由於在整個過程中耗時最長的並發標記和並發清除階段中，垃圾收集器執行緒都可以與用戶執行緒一起工作，所以從總體上來說，CMS收集器的記憶體回收過程是與用戶執行緒一起並發執行的。

CMS解決辦法:增量更新

在應對漏標問題時，CMS使用了增量更新(Increment Update)方法來做：

在一個未被標記的對象（白色對象）被重新引用後，引用它的對象若為黑色則要變成灰色，在下次二次標記時讓GC執行緒繼續標記它的屬性對象。

但是就算時這樣，其仍然是存在漏標的問題：

在一個灰色對象正在被一個GC執行緒回收時，當它已經被標記過的屬性指向了一個白色對象（垃圾）
而這個對象的屬性對象本身還未全部標記結束，則為灰色不變
而這個GC執行緒在標記完最後一個屬性後，認為已經將所有的屬性標記結束了，將這個灰色對象標記為黑色，被重新引用的白色對象，無法被標記

CMS另兩個致命缺陷

CMS採用了Mark-Sweep演算法，最後會產生許多記憶體碎片，當到一定數量時，CMS無法清理這些碎片了，CMS會讓Serial Old垃圾處理器來清理這些垃圾碎片，而Serial Old垃圾處理器是單執行緒操作進行清理垃圾的，效率很低。

所以使用CMS就會出現一種情況，硬體升級了，卻越來越卡頓，其原因就是因為進行Serial Old GC時，效率過低。
- 解決方案：使用Mark-Sweep-Compact演算法，減少垃圾碎片
- 調優參數（配套使用）：
```
-XX:+UseCMSCompactAtFullCollection  開啟CMS的壓縮
-XX:CMSFullGCsBeforeCompaction 默認為0，指經過多少次CMS FullGC才進行壓縮
```
當JVM認為記憶體不夠，再使用CMS進行並發清理記憶體可能會發生OOM的問題，而不得不進行Serial Old GC，Serial Old是單執行緒垃圾回收，效率低
- 解決方案：降低觸發CMS GC的閾值，讓浮動垃圾不那麼容易佔滿老年代
- 調優參數：
```
-XX:CMSInitiatingOccupancyFraction 92% 可以降低這個值，讓老年代佔用率達到該值就進行CMS GC
```

G1回顧

G1(Garbage First)物理記憶體不再分代，而是由一塊一塊的Region組成,但是邏輯分代仍然存在。G1不再堅持固定大小以及固定數量的分代區域劃分，而是把連續的Java堆劃分為多個大小相等的獨立區域（Region），每一個Region都可以根據需要，扮演新生代的Eden空間、Survivor空間，或者老年代空間。收集器能夠對扮演不同角色的Region採用不同的策略去處理，這樣無論是新創建的對象還是已經存活了一段時間、熬過多次收集的舊對象都能獲取很好的收集效果。

Region中還有一類特殊的Humongous區域，專門用來存儲大對象。G1認為只要大小超過了一個Region容量一半的對象即可判定為大對象。每個Region的大小可以通過參數-XX：G1HeapRegionSize設定，取值範圍為1MB～32MB，且應為2的N次冪。而對於那些超過了整個Region容量的超級大對象，將會被存放在N個連續的Humongous Region之中，G1的大多數行為都把Humongous Region作為老年代的一部分來進行看待，如圖所示

G1前置知識

Card Table（多種垃圾回收器均具備）

由於在進行YoungGC時，我們在進行對一個對象是否被引用的過程，需要掃描整個Old區，所以JVM設計了CardTable，將Old區分為一個一個Card，一個Card有多個對象；如果一個Card中的對象有引用指向Young區，則將其標記為Dirty Card，下次需要進行YoungGC時，只需要去掃描Dirty Card即可。
Card Table 在底層數據結構以 Bit Map實現。

RSet(Remembered Set)

是輔助GC過程的一種結構，典型的空間換時間工具，和Card Table有些類似。

後面說到的CSet(Collection Set)也是輔助GC的，它記錄了GC要收集的Region集合，集合里的Region可以是任意年代的。

在GC的時候，對於old->young和old->old的跨代對象引用，只要掃描對應的CSet中的RSet即可。邏輯上說每個Region都有一個RSet，RSet記錄了其他Region中的對象引用本Region中對象的關係，屬於points-into結構（誰引用了我的對象）。

而Card Table則是一種points-out（我引用了誰的對象）的結構，每個Card 覆蓋一定範圍的Heap（一般為512Bytes）。G1的RSet是在Card Table的基礎上實現的：每個Region會記錄下別的Region有指向自己的指針，並標記這些指針分別在哪些Card的範圍內。這個RSet其實是一個Hash Table，Key是別的Region的起始地址，Value是一個集合，裡面的元素是Card Table的Index。每個Region中都有一個RSet，記錄其他Region到本Region的引用資訊；使得垃圾回收器不需要掃描整個堆找到誰引用當前分區中的對象，只需要掃描RSet即可。

CSet(Collection Set)

一組可被回收的分區Region的集合, 是多個對象的集合記憶體區域。

新生代與老年代的比例

5% - 60%，一般不使用手工指定，因為這是G1預測停頓時間的基準,這地方簡要說明一下,G1可以指定一個預期的停頓時間,然後G1會根據你設定的時間來動態調整年輕代的比例,例如時間長,就將年輕代比例調小,讓YGC儘早行。

G1解決辦法:SATB

SATB(Snapshot At The Beginning), 在應對漏標問題時，G1使用了SATB方法來做,具體流程：

在開始標記的時候生成一個快照圖標記存活對象
在一個引用斷開後，要將此引用推到GC的堆棧里，保證白色對象（垃圾）還能被GC執行緒掃描到(在write barrier(寫屏障)里把所有舊的引用所指向的對象都變成非白的)。
配合Rset，去掃描哪些Region引用到當前的白色對象，若沒有引用到當前對象，則回收

SATB詳細流程

SATB是維持並發GC的一種手段。G1並發的基礎就是SATB。SATB可以理解成在GC開始之前對堆記憶體里的對象做一次快照，此時活的對像就認為是活的，從而開成一個對象圖。

在GC收集的時候，新生代的對象也認為是活的對象，除此之外其他不可達的對象都認為是垃圾對象。

如何找到在GC過程中分配的對象呢？每個region記錄著兩個top-at-mark-start(TAMS)指針，分別為prevTAMS和nextTAMS。在TAMS以上的對象就是新分配的，因而被視為隱式marked。

通過這種方式我們就找到了在GC過程中新分配的對象，並把這些對象認為是活的對象。

解決了對象在GC過程中分配的問題，那麼在GC過程中引用發生變化的問題怎麼解決呢？

G1給出的解決辦法是通過Write Barrier。Write Barrier就是對引用欄位進行賦值做了額外處理。通過Write Barrier就可以了解到哪些引用對象發生了什麼樣的變化。

mark的過程就是遍歷heap標記live object的過程，採用的是三色標記演算法，這三種顏色為white（表示還未訪問到）、gray（訪問到但是它用到的引用還沒有完全掃描）、back（訪問到而且其用到的引用已經完全掃描完）。

整個三色標記演算法就是從GC roots出發遍歷heap，針對可達對象先標記white為gray，然後再標記gray為black；遍歷完成之後所有可達對象都是balck的，所有white都是可以回收的。

SATB僅僅對於在marking開始階段進行「snapshot」(marked all reachable at mark start)，但是concurrent的時候並發修改可能造成對象漏標記。

對black新引用了一個white對象，然後又從gray對象中刪除了對該white對象的引用，這樣會造成了該white對象漏標記。

對black新引用了一個white對象，然後從gray對象刪了一個引用該white對象的white對象，這樣也會造成了該white對象漏標記。

對black新引用了一個剛new出來的white對象，沒有其他gray對象引用該white對象，這樣也會造成了該white對象漏標記。

SATB效率高於增量更新的原因？

因為SATB在重新標記環節只需要去重新掃描那些被推到堆棧中的引用，並配合Rset來判斷當前對象是否被引用來進行回收；

並且在最後G1並不會選擇回收所有垃圾對象，而是根據Region的垃圾多少來判斷與預估回收價值（指回收的垃圾與回收的STW時間的一個預估值），將一個或者多個Region放到CSet中，最後將這些Region中的存活對象壓縮並複製到新的Region中，清空原來的Region。

G1會不會進行Full GC?

會，當記憶體滿了的時候就會進行Full GC；且JDK10之前的Full GC，為單執行緒的，所以使用G1需要避免Full GC的產生。

解決方案：

加大記憶體；
提高CPU性能，加快GC回收速度，而對象增加速度趕不上回收速度，則Full GC可以避免；
降低進行Mixed GC觸發的閾值，讓Mixed GC提早發生（默認45%）

站在巨人的肩膀上

Tags: JAVA JAVA JVM

JVM垃圾回收之三色標記