天天看點

.Net 垃圾回收和大對象處理

clr垃圾回收器根據所占空間大小劃分對象。大對象和小對象的處理方式有很大差別。比如記憶體碎片整理 —— 在記憶體中移動大對象的成本是昂貴的,讓我們研究一下垃圾回收器是如何處理大對象的,大對象對程式性能有哪些潛在的影響。

大對象堆和垃圾回收

在.net 1.0和2.0中,如果一個對象的大小超過85000byte,就認為這是一個大對象。這個數字是根據性能優化的經驗得到的。當一個對象申請記憶體大小達到這個門檻值,它就會被配置設定到大對象堆上。這意味着什麼呢?要了解這個,我們需要了解.net垃圾回收機制。

如大多人所知道的,.net gc是按照“代”來回收的。程式中的對象共有3代,0代、1代和2代,0代是最年輕的對象,2代對象存活的時間最長。gc按代回收垃圾也是出于性能考慮的;通常的對象都會在0代是被回收。例如,在一個asp.net程式中,和每一個請求相關的對象都應該在請求結束時回收掉。而沒有被回收的對象會成為1代對象;也就是說1代對象是常駐記憶體對象和馬上消亡對象之間的一個緩沖區。

從代的角度看,大對象屬于2代對象,因為隻有在2代回收時才會處理大對象。當某代垃圾回收執行時,會同時執行更年輕代的垃圾回收。比如:當1代垃圾回收時會同時回收1代和0代的對象,當2代垃圾回收時會執行1代和0代的回收.

代是垃圾回收器區分記憶體區域的邏輯視圖。從實體存儲角度看,對象配置設定在不同的托管堆上。一個托管堆(managed heap)是垃圾回收器從作業系統申請的記憶體區(通過調用windows api virtualalloc)。當clr載入記憶體之後,會初始化兩個托管堆,一個大對象堆(loh –large object heap)和一個小對象對(soh – small object heap)。

記憶體配置設定請求就是将托管對象放到對應的托管堆上。如果對象的大小小于85000byte,它會被放置在soh;否則會被放在loh上。

對于soh,對象在執行一次垃圾回收之後,會進入到下一代。也就是說如果在第一次執行垃圾回收時,存活下來的對象會進入第二代,如果在第2次垃圾回收之後該對象仍然沒有被當作垃圾回收掉,它就會成為2代對象;2代對象就是最老的對象不會在提升代數。

當觸發垃圾回收時,垃圾回收器會在小對象堆做碎片整理,将存活下來的對象移動到一起。而對于大對象堆,由于移動記憶體的開銷很大,clr團隊選擇隻是清除它們,将回收掉的對象組成一個清單,以便滿足下次有大對象申請使用記憶體,相鄰的垃圾對象會被合并成一塊空閑的記憶體塊。

需要時時留意的是,直到.net 4.0中也不會對大對象堆做碎片整理操作,将來也許會做。是以如果你要配置設定大對象并不想他們被移動,你可以使用fixed語句。

如下小對象堆soh的回收示意圖

.Net 垃圾回收和大對象處理

上圖中第一次垃圾回收之前有四個對象obj0-3;在第一垃圾回收之後obj1和obj3被回收了,同時obj2和obj0移動到一起了;在第二次垃圾回收之前有配置設定了三個對象obj4-6;在第二次執行垃圾回收之後obj2和obj5被回收了,obj4和obj6被移動到obj0旁邊。

下圖是大對象堆loh回收示意圖

.Net 垃圾回收和大對象處理

可以看到在未執行垃圾回收之前,一共有四個對象obj0-3;第一次二代垃圾回收之後obj1和obj2被回收掉了,回收掉之後obj1和obj2所占空間被合并到了一起,在obj4申請配置設定記憶體時就把obj1和obj2回收後釋放的空間配置設定給它了;同時留下了一塊記憶體碎片。如果這個碎片的大小小于85000byte,那麼這個碎片就在這個程式的生命周期中永遠不能被再次利用了。

如果大對象堆上沒有足夠的空閑記憶體容納要申請的大對象空間,clr首先會嘗試向作業系統申請記憶體,如果申請失敗,就會觸發一次二代回收來嘗試釋放一些記憶體。

在2代垃圾回收時,可以将不需要的記憶體通過virtualfree交還給作業系統。交還的過程參見下圖:

.Net 垃圾回收和大對象處理

什麼時候回收大對象呢?

在讨論什麼時候回收大對象之前先來看下普通的垃圾回收操作什麼時機執行吧。垃圾回收在下列情況下發生:

1. 申請的空間超過0代記憶體大小或者大對象堆的門檻值,多數的托管堆垃圾回收在這種情況下發生

2. 在程式代碼中調用gc.collect方法時;如果在調用gc.collect方法是傳入gc.maxgeneration參數時,會執行所有代對象的垃圾回收,包括大對象堆的垃圾回收

3. 作業系統記憶體不足時,當應用程式收到作業系統發出的高記憶體通知時

4. 如果垃圾回收算法認為做二代回收是有收效時會觸發二代垃圾回收

5. 每一代對象堆的都有一個所占空間大小門檻值的屬性,當你配置設定對象到某一代,你增長了記憶體總量接近了該代的門檻值,或者配置設定對象導緻這一代的堆大小超過了堆門檻值,就會發生一次垃圾回收。是以當你配置設定小對象或者大對象時,會對應消耗0代堆或者大對象堆的門檻值。當垃圾回收器将對象代數提升到1代或者2代時,會消耗1、2代的門檻值。在程式運作中這些門檻值是動态變化的。

大對象堆性能影響

讓我們先看下配置設定大對象的代價。 clr為每個新對象配置設定記憶體時都要保證這些記憶體清空的,是沒有被其他對象使用的(i give out is cleared)。這就意味着配置設定的代價完全被清理(clearing)的代價控制着(除非在配置設定時觸發了一次垃圾回收)。如果清空1byte需要2個周期(cycles),就意味着清除一個最小的大對象需要170,000個周期。通常情況下人們不會配置設定超大的對象,比如說在2ghz的機器上配置設定16m大小的對象,大約需要16ms來清空記憶體。這代價太大了。

讓我們在看下回收的代價。前面提到過,大對象和2代齡對象一起回收。如果大對象或者2代對象占用空間超過其門檻值時,就會觸發2代對象的回收。如果2代回收因為大對象堆超過門檻值被觸發,2代對象堆本身沒有多少對象可以做回收。如果在2代堆上沒有多少對象,這問題不大。但是如果2代堆很大對象很多,過多的2代回收就會導緻性能問題。如果是臨時性的配置設定大對象,就需要很多的時間來運作垃圾回收;也就是說如果你持續的使用大對象然後又釋放大對象對性能會有很大的負面影響。

大對象堆上的巨大對象通常是數組(很少有一個對象很大的情況)。如果對象中的元素是強引用,代價會很高;如果元素之間沒有互相引用,垃圾回收時就不需要周遊整個數組。例如:用一個數組來儲存二叉樹的節點,一種方法是在節點中強引用左右節點:

如果num_nodes是一個很大的數字,就意味着每個節點都至少需要檢視二個引用元素。一種替代方案是在節點中儲存左右節點元素的數組索引号

這樣的話,元素之間的引用關系去掉了;可以通過binarytree[left_index]來獲得引用的節點。垃圾回收器在做垃圾回收時也不需要看相關的引用元素了。

為大對象堆收集性能資料

有幾種方法可以收集大對象堆相關的性能資料。在我解釋這些方法之前,讓我們先談一下為什麼需要收集大對象堆相關的性能資料。

在你開始上搜集某個方面的性能資料時,有可能你已經找到這方面造成性能瓶頸的證據;或者你已經沒有找遍了所有方面都沒有發現問題。

在查找性能問題時.net clr memory 性能計數器通常是應該先考慮使用的工具。和loh相關的計數器有generation 2 collectioins(2代堆收集次數)和large object heap size大對象堆大小。generation 2 collections顯示的是程序啟動之後2代垃圾回收操作發生的次數。large object heap size計數器顯示的是目前大對象堆的大小值,包括空閑空間;這個計數器是在每次垃圾回收操作之後做更新,并非每次配置設定記憶體都做更新。

可以參考下圖在windows性能計數器中觀察.net clr memory相關性能資料

.Net 垃圾回收和大對象處理

你也可以通過程式查詢這些計數器的值;很多人通過程式的方式收集性能計數器來幫助查找性能瓶頸。

當然也可以使用調試器winddbg觀察大對象堆。

最後提示一下:到目前為止,大對象堆作為垃圾回收的一部分是不做記憶體碎片整理的,但是這個隻是一個clr的實作細節,程式代碼不應該依賴這個特點。如果要確定對象不會被垃圾回收器移動,就要使用fixed語句。

原文位址:http://blog.jobbole.com/31459/