linux 記憶體管理初探

linux 記憶體是背景開發人員，需要深入了解的計算機資源。合理的使用記憶體，有助于提升機器的性能和穩定性。本文主要介紹 linux 記憶體組織結構和頁面布局，記憶體碎片産生原因和優化算法，linux 核心幾種記憶體管理的方法，記憶體使用場景以及記憶體使用的那些坑。從記憶體的原理和結構，到記憶體的算法優化，再到使用場景，去探尋記憶體管理的機制和奧秘。

1、記憶體是什麼？

1)記憶體又稱主存，是 CPU 能直接尋址的存儲空間，由半導體器件制成

2)記憶體的特點是存取速率快

2、記憶體的作用

1)暫時存放 cpu 的運算資料

2)硬碟等外部存儲器交換的資料

3)保障 cpu 計算的穩定性和高性能

1、linux 記憶體位址空間 Linux 記憶體管理全貌

2、記憶體位址——使用者态&核心态

使用者态：Ring3 運作于使用者态的代碼則要受到處理器的諸多

核心态：Ring0 在處理器的存儲保護中，核心态

使用者态切換到核心态的 3 種方式：系統調用、異常、外設中斷

差別：每個程序都有完全屬于自己的，獨立的，不被幹擾的記憶體空間；使用者态的程式就不能随意操作核心位址空間，具有一定的安全保護作用；核心态線程共享核心位址空間；

3、記憶體位址——MMU 位址轉換

MMU 是一種硬體電路，它包含兩個部件，一個是分段部件，一個是分頁部件

分段機制把一個邏輯位址轉換為線性位址

分頁機制把一個線性位址轉換為實體位址

4、記憶體位址——分段機制

1) 段選擇符

為了友善快速檢索段選擇符，處理器提供了 6 個分段寄存器來緩存段選擇符，它們是： cs,ss,ds,es,fs 和 gs

段的基位址(Base Address)：線上性位址空間中段的起始位址

段的界限(Limit)：在虛拟位址空間中，段内可以使用的最大偏移量

2) 分段實作

邏輯位址的段寄存器中的值提供段描述符，然後從段描述符中得到段基址和段界限，然後加上邏輯位址的偏移量，就得到了線性位址

5、記憶體位址——分頁機制（32 位）

分頁機制是在分段機制之後進行的，它進一步将線性位址轉換為實體位址

10 位頁目錄，10 位頁表項， 12 位頁偏移位址

單頁的大小為 4KB

6、使用者态位址空間

TEXT：代碼段可執行代碼、字元串字面值、隻讀變量

DATA：資料段，映射程式中已經初始化的全局變量

BSS 段：存放程式中未初始化的全局變量

HEAP：運作時的堆，在程式運作中使用 malloc 申請的記憶體區域

MMAP：共享庫及匿名檔案的映射區域

STACK：使用者程序棧

7、核心态位址空間

直接映射區：線性空間中從 3G 開始最大 896M 的區間，為直接記憶體映射區

動态記憶體映射區：該區域由核心函數 vmalloc 來配置設定

永久記憶體映射區：該區域可通路高端記憶體

固定映射區：該區域和 4G 的頂端隻有 4k 的隔離帶，其每個位址項都服務于特定的用途，如： ACPI_BASE 等

8、程序記憶體空間

使用者程序通常情況隻能通路使用者空間的虛拟位址，不能通路核心空間虛拟位址

核心空間是由核心負責映射，不會跟着程序變化；核心空間位址有自己對應的頁表，使用者程序各自有不同額頁表

記憶體管理算法——對讨厭自己管理記憶體的人來說是天賜的禮物

1、記憶體碎片

1) 基本原理

産生原因：記憶體配置設定較小，并且配置設定的這些小的記憶體生存周期又較長，反複申請後将産生記憶體碎片的出現

優點：提高配置設定速度，便于記憶體管理，防止記憶體洩露

缺點：大量的記憶體碎片會使系統緩慢，記憶體使用率低，浪費大

2) 如何避免記憶體碎片

少用動态記憶體配置設定的函數(盡量使用棧空間)

配置設定記憶體和釋放的記憶體盡量在同一個函數中

盡量一次性申請較大的記憶體，而不要反複申請小記憶體

盡可能申請大塊的 2 的指數幂大小的記憶體空間

外部碎片避免——夥伴系統算法

内部碎片避免——slab 算法

自己進行記憶體管理工作，設計記憶體池

2、夥伴系統算法——組織結構

1) 概念

為核心提供了一種用于配置設定一組連續的頁而建立的一種高效的配置設定政策，并有效的解決了外碎片問題

配置設定的記憶體區是以頁框為基本機關的

2) 外部碎片

外部碎片指的是還沒有被配置設定出去（不屬于任何程序），但由于太小了無法配置設定給申請記憶體空間的新程序的記憶體空閑區域3) 組織結構

把所有的空閑頁分組為 11 個塊連結清單，每個塊連結清單分别包含大小為 1，2，4，8，16，32，64，128，256，512 和 1024 個連續頁框的頁塊。最大可以申請 1024 個連續頁，對應 4MB 大小的連續記憶體

3、夥伴系統算法——申請和回收

1) 申請算法

申請 2^i 個頁塊存儲空間，如果 2^i 對應的塊連結清單有空閑頁塊，則配置設定給應用

如果沒有空閑頁塊，則查找 2^(i 1) 對應的塊連結清單是否有空閑頁塊，如果有，則配置設定 2^i 塊連結清單節點給應用，另外 2^i 塊連結清單節點插入到 2^i 對應的塊連結清單中

如果 2^(i 1) 塊連結清單中沒有空閑頁塊，則重複步驟 2，直到找到有空閑頁塊的塊連結清單

如果仍然沒有，則傳回記憶體配置設定失敗

2) 回收算法

釋放 2^i 個頁塊存儲空間，查找 2^i 個頁塊對應的塊連結清單，是否有與其實體位址是連續的頁塊，如果沒有，則無需合并

如果有，則合并成 2^（i 1）的頁塊，以此類推，繼續查找下一級塊連結，直到不能合并為止

3) 條件

兩個塊具有相同的大小

它們的實體位址是連續的

頁塊大小相同

4、如何配置設定 4M 以上記憶體？

1) 為何限制大塊記憶體配置設定

配置設定的記憶體越大, 失敗的可能性越大

大塊記憶體使用場景少

2) 核心中擷取 4M 以上大記憶體的方法

修改 MAX_ORDER, 重新編譯核心

核心啟動選型傳遞"mem="參數, 如"mem=80M，預留部分記憶體；然後通過

request_mem_region 和 ioremap_nocache 将預留的記憶體映射到子產品中。需要修改核心啟動參數, 無需重新編譯核心. 但這種方法不支援 x86 架構, 隻支援 ARM, PowerPC 等非 x86 架構

在 start_kernel 中 mem_init 函數之前調用 alloc_boot_mem 函數預配置設定大塊記憶體, 需要重新編譯核心

vmalloc 函數，核心代碼使用它來配置設定在虛拟記憶體中連續但在實體記憶體中不一定連續的記憶體

5、夥伴系統——反碎片機制

1) 不可移動頁

這些頁在記憶體中有固定的位置，不能夠移動，也不可回收

核心代碼段，資料段，核心 kmalloc() 出來的記憶體，核心線程占用的記憶體等

2) 可回收頁

這些頁不能移動，但可以删除。核心在回收頁占據了太多的記憶體時或者記憶體短缺時進行頁面回收3) 可移動頁

這些頁可以任意移動，使用者空間應用程式使用的頁都屬于該類别。它們是通過頁表映射的

當它們移動到新的位置，頁表項也會相應的更新

6、slab 算法——基本原理

1) 基本概念

Linux 所使用的 slab 配置設定器的基礎是 Jeff Bonwick 為 SunOS 作業系統首次引入的一種算法

它的基本思想是将核心中經常使用的對象放到高速緩存中，并且由系統保持為初始的可利用狀态。比如程序描述符，核心中會頻繁對此資料進行申請和釋放

2) 内部碎片

已經被配置設定出去的的記憶體空間大于請求所需的記憶體空間3) 基本目标

減少夥伴算法在配置設定小塊連續記憶體時所産生的内部碎片

将頻繁使用的對象緩存起來，減少配置設定、初始化和釋放對象的時間開銷

通過着色技術調整對象以更好的使用硬體高速緩存

7、slab 配置設定器的結構

由于對象是從 slab 中配置設定和釋放的，是以單個 slab 可以在 slab 清單之間進行移動

slabs_empty 清單中的 slab 是進行回收（reaping）的主要備選對象

slab 還支援通用對象的初始化，進而避免了為同一目而對一個對象重複進行初始化

8、slab 高速緩存

1) 普通高速緩存

slab 配置設定器所提供的小塊連續記憶體的配置設定是通過通用高速緩存實作的

通用高速緩存所提供的對象具有幾何分布的大小，範圍為 32 到 131072 位元組。

核心中提供了 kmalloc() 和 kfree() 兩個接口分别進行記憶體的申請和釋放

2) 專用高速緩存

核心為專用高速緩存的申請和釋放提供了一套完整的接口，根據所傳入的參數為具體的對象配置設定 slab 緩存

kmem_cache_create() 用于對一個指定的對象建立高速緩存。它從 cache_cache 普通高速緩存中為新的專有緩存配置設定一個高速緩存描述符，并把這個描述符插入到高速緩存描述符形成的 cache_chain 連結清單中

kmem_cache_alloc() 在其參數所指定的高速緩存中配置設定一個 slab。相反， kmem_cache_free() 在其參數所指定的高速緩存中釋放一個 slab

9、核心态記憶體池

先申請配置設定一定數量的、大小相等(一般情況下) 的記憶體塊留作備用

當有新的記憶體需求時，就從記憶體池中分出一部分記憶體塊，若記憶體塊不夠再繼續申請新的記憶體

這樣做的一個顯著優點是盡量避免了記憶體碎片，使得記憶體配置設定效率得到提升

2) 核心 API

mempool_create 建立記憶體池對象

mempool_alloc 配置設定函數獲得該對象

mempool_free 釋放一個對象

mempool_destroy 銷毀記憶體池

10、使用者态記憶體池

1) C++ 執行個體

11、DMA 記憶體

1) 什麼是 DMA

直接記憶體通路是一種硬體機制，它允許外圍裝置和主記憶體之間直接傳輸它們的 I/O 資料，而不需要系統處理器的參與2) DMA 控制器的功能

能向 CPU 發出系統保持（HOLD）信号，提出總線接管請求

當 CPU 發出允許接管信号後，負責對總線的控制，進入 DMA 方式

能對存儲器尋址及能修改位址指針，實作對記憶體的讀寫操作

能決定本次 DMA 傳送的位元組數，判斷 DMA 傳送是否結束

發出 DMA 結束信号，使 CPU 恢複正常工作狀态

3) DMA 信号

DREQ：DMA 請求信号。是外設向 DMA 控制器提出要求，DMA 操作的申請信号

DACK：DMA 響應信号。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的信号

HRQ：DMA 控制器向 CPU 發出的信号，要求接管總線的請求信号。

HLDA：CPU 向 DMA 控制器發出的信号，允許接管總線的應答信号：

out of memory 的時代過去了嗎？no，記憶體再充足也不可任性使用。

1、記憶體的使用場景

page 管理

slab（kmalloc、記憶體池）

使用者态記憶體使用（malloc、relloc 檔案映射、共享記憶體）

程式的記憶體 map（棧、堆、code、data）

核心和使用者态的資料傳遞（copy_from_user、copy_to_user）

記憶體映射（硬體寄存器、保留記憶體）

DMA 記憶體

2、使用者态記憶體配置設定函數

alloca 是向棧申請記憶體,是以無需釋放

malloc 所配置設定的記憶體空間未被初始化，使用 malloc() 函數的程式開始時(記憶體空間還沒有被重新配置設定) 能正常運作，但經過一段時間後(記憶體空間已被重新配置設定) 可能會出現問題

calloc 會将所配置設定的記憶體空間中的每一位都初始化為零

realloc 擴充現有記憶體空間大小

a) 如果目前連續記憶體塊足夠 realloc 的話，隻是将 p 所指向的空間擴大，并傳回 p 的指針位址。這個時候 q 和 p 指向的位址是一樣的

b) 如果目前連續記憶體塊不夠長度，再找一個足夠長的地方，配置設定一塊新的記憶體，q，并将 p 指向的内容 copy 到 q，傳回 q。并将 p 所指向的記憶體空間删除

mmap 将一個檔案或者其它對象映射進記憶體，多程序可通路3、核心态記憶體配置設定函數函數配置設定原理最大記憶體其他_get_free_pages直接對頁框進行操作4MB适用于配置設定較大量的連續實體記憶體kmem_cache_alloc基于 slab 機制實作128KB适合需要頻繁申請釋放相同大小記憶體塊時使用kmalloc基于 kmem_cache_alloc 實作128KB最常見的配置設定方式，需要小于頁框大小的記憶體時可以使用vmalloc建立非連續實體記憶體到虛拟位址的映射實體不連續，适合需要大記憶體，但是對位址連續性沒有要求的場合dma_alloc_coherent基于_alloc_pages 實作4MB适用于 DMA 操作ioremap實作已知實體位址到虛拟位址的映射适用于實體位址已知的場合，如裝置驅動alloc_bootmem在啟動 kernel 時，預留一段記憶體，核心看不見小于實體記憶體大小，記憶體管理要求較高4、malloc 申請記憶體

調用 malloc 函數時，它沿 free_chuck_list 連接配接表尋找一個大到足以滿足使用者請求所需要的記憶體塊

free_chuck_list 連接配接表的主要工作是維護一個空閑的堆空間緩沖區連結清單

如果空間緩沖區連結清單沒有找到對應的節點，需要通過系統調用 sys_brk 延伸程序的棧空間

5、缺頁異常

通過 get_free_pages 申請一個或多個實體頁面

換算 addr 在程序 pdg 映射中所在的 pte 位址

将 addr 對應的 pte 設定為實體頁面的首位址

系統調用：Brk—申請記憶體小于等于 128kb，do_map—申請記憶體大于 128kb

6、使用者程序通路記憶體分析

使用者态程序獨占虛拟位址空間，兩個程序的虛拟位址可相同

在通路使用者态虛拟位址空間時，如果沒有映射實體位址，通過系統調用發出缺頁異常

缺頁異常陷入核心，配置設定實體位址空間，與使用者态虛拟位址建立映射

7、共享記憶體

1) 原理

它允許多個不相關的程序去通路同一部分邏輯記憶體

兩個運作中的程序之間傳輸資料，共享記憶體将是一種效率極高的解決方案

兩個運作中的程序共享資料，是程序間通信的高效方法，可有效減少資料拷貝的次數

2) shm 接口

shmget 建立共享記憶體

shmat 啟動對該共享記憶體的通路，并把共享記憶體連接配接到目前程序的位址空間

shmdt 将共享記憶體從目前程序中分離

1、C 記憶體洩露

在類的構造函數和析構函數中沒有比對地調用 new 和 delete 函數

沒有正确地清除嵌套的對象指針

沒有将基類的析構函數定義為虛函數

當基類的指針指向子類對象時，如果基類的析構函數不是 virtual，那麼子類的析構函數将不會被調用，子類的資源沒有得到正确釋放，是以造成記憶體洩露

缺少拷貝構造函數，按值傳遞會調用（拷貝）構造函數，引用傳遞不會調用

指向對象的指針數組不等同于對象數組，數組中存放的是指向對象的指針，不僅要釋放每個對象的空間，還要釋放每個指針的空間

缺少重載指派運算符，也是逐個成員拷貝的方式複制對象，如果這個類的大小是可變的，那麼結果就是造成記憶體洩露

2、C 野指針

指針變量沒有初始化

指針被 free 或 delete 後，沒有設定為 NULL

指針操作超越了變量的作用範圍，比如傳回指向棧記憶體的指針就是野指針

通路空指針（需要做空判斷）

sizeof 無法擷取數組的大小

試圖修改常量，如：char p="1234";p='1';

3、C 資源通路沖突

多線程共享變量沒有用 valotile 修飾

多線程通路全局變量未加鎖

全局變量僅對單程序有效

多程序寫共享記憶體資料，未做同步處理

mmap 記憶體映射，多程序不安全

4、STL 疊代器失效

被删除的疊代器失效

添加元素（insert/push_back 等）、删除元素導緻順序容器疊代器失效

錯誤示例：删除目前疊代器，疊代器會失效

正确示例：疊代器 erase 時，需儲存下一個疊代器

5、C++ 11 智能指針

auto_ptr 替換為 unique_ptr

使用 make_shared 初始化一個 shared_ptr

weak_ptr 智能指針助手（1）原理分析：

（2）資料結構：

（3）使用方法：a. lock() 擷取所管理的對象的強引用指針

b. expired() 檢測所管理的對象是否已經釋放

c. get() 通路智能指針對象6、C++ 11 更小更快更安全

std::atomic 原子資料類型多線程安全

std::array 定長數組開銷比 array 小和 std::vector 不同的是 array 的長度是固定的，不能動态拓展

std::vector vector 瘦身 shrink_to_fit()：将 capacity 減少為于 size() 相同的大小

td::forward_list

forward_list 是單連結清單（std::list 是雙連結清單），隻需要順序周遊的場合，forward_list 能更加節省記憶體，插入和删除的性能高于 list

std::unordered_map、std::unordered_set用 hash 實作的無序的容器，插入、删除和查找的時間複雜度都是 O(1)，在不關注容器内元素順序的場合，使用 unordered 的容器能獲得更高的性能六、如何檢視記憶體

系統中記憶體使用情況：/proc/meminfo

程序的記憶體使用情況：/proc/28040/status

查詢記憶體總使用率：free

查詢程序 cpu 和記憶體使用占比：top

虛拟記憶體統計：vmstat

程序消耗記憶體占比和排序：ps aux –sort -rss

釋放系統記憶體緩存：/proc/sys/vm/drop_caches

To free pagecache, use echo 1 > /proc/sys/vm/drop_caches

To free dentries and inodes, use echo 2 > /proc/sys/vm/drop_caches

To free pagecache, dentries and inodes, use echo 3 >/proc/sys/vm/drop_caches