導語
linux 記憶體是背景開發人員,需要深入了解的計算機資源。合理的使用記憶體,有助于提升機器的性能和穩定性。本文主要介紹 linux 記憶體組織結構和頁面布局,記憶體碎片産生原因和優化算法,linux 核心幾種記憶體管理的方法,記憶體使用場景以及記憶體使用的那些坑。從記憶體的原理和結構,到記憶體的算法優化,再到使用場景,去探尋記憶體管理的機制和奧秘。
一、走進 linux 記憶體
1、記憶體是什麼?
1) 記憶體又稱主存,是 CPU 能直接尋址的存儲空間,由半導體器件制成;
2) 記憶體的特點是存取速率快,斷電一般不儲存資料,非持久化裝置;
2、記憶體的作用
1) 暫時存放 cpu 的運算資料
2) 硬碟等外部存儲器交換的資料
3) 保障 cpu 計算的穩定性和高性能
二、 linux 記憶體位址空間
1、linux 記憶體位址空間 Linux 記憶體管理全貌
2、記憶體位址——使用者态&核心态
- 使用者态:Ring3 運作于使用者态的代碼則要受到處理器的諸多
- 核心态:Ring0 在處理器的存儲保護中,核心态
- 使用者态切換到核心态的 3 種方式:系統調用、異常、外設中斷
- 差別:每個程序都有完全屬于自己的,獨立的,不被幹擾的記憶體空間;使用者态的程式就不能随意操作核心位址空間,具有一定的安全保護作用;核心态線程共享核心位址空間;
3、記憶體位址——MMU 位址轉換
- MMU 是一種硬體電路,它包含兩個部件,一個是分段部件,一個是分頁部件
- 分段機制把一個邏輯位址轉換為線性位址
- 分頁機制把一個線性位址轉換為實體位址
4、記憶體位址——分段機制
1) 段選擇符
- 為了友善快速檢索段選擇符,處理器提供了 6 個分段寄存器來緩存段選擇符,它們是:cs,ss,ds,es,fs 和 gs
- 段的基位址(Base Address):線上性位址空間中段的起始位址
- 段的界限(Limit):在虛拟位址空間中,段内可以使用的最大偏移量
2) 分段實作
- 邏輯位址的段寄存器中的值提供段描述符,然後從段描述符中得到段基址和段界限,然後加上邏輯位址的偏移量,就得到了線性位址
5、記憶體位址——分頁機制(32 位)
- 分頁機制是在分段機制之後進行的,它進一步将線性位址轉換為實體位址
- 10 位頁目錄,10 位頁表項, 12 位頁偏移位址
- 單頁的大小為 4KB
6、使用者态位址空間
- text:代碼段可執行代碼、字元串字面值、隻讀變量
- data:資料段,映射程式中已經初始化的全局變量
- bss:存放程式中未初始化的全局變量
- heap:運作時的堆,在程式運作中使用 malloc 申請的記憶體區域
- mmap:共享庫及匿名檔案的映射區域
- stack:使用者程序棧
7、核心态位址空間
- 直接映射區:線性空間中從 3G 開始最大 896M 的區間,為直接記憶體映射區
- 動态記憶體映射區:該區域由核心函數 vmalloc 來配置設定
- 永久記憶體映射區:該區域可通路高端記憶體
- 固定映射區:該區域和 4G 的頂端隻有 4k 的隔離帶,其每個位址項都服務于特定的用途,如:ACPI_BASE 等
8、程序記憶體空間
- 使用者程序通常情況隻能通路使用者空間的虛拟位址,不能通路核心空間虛拟位址
- 核心空間是由核心負責映射,不會跟着程序變化;核心空間位址有自己對應的頁表,使用者程序各自有不同額頁表
三、 Linux 記憶體配置設定算法
記憶體管理算法——對讨厭自己管理記憶體的人來說是天賜的禮物
Linux 記憶體管理架構
1、記憶體碎片
1) 基本原理
- 産生原因:記憶體配置設定較小,并且配置設定的這些小的記憶體生存周期又較長,反複申請後将産生記憶體碎片的出現
- 優點:提高配置設定速度,便于記憶體管理,防止記憶體洩露
- 缺點:大量的記憶體碎片會使系統緩慢,記憶體使用率低,浪費大
2) 如何避免記憶體碎片
- 少用動态記憶體配置設定的函數(盡量使用棧空間)
- 配置設定記憶體和釋放的記憶體盡量在同一個函數中
- 盡量一次性申請較大的記憶體,而不要反複申請小記憶體
- 盡可能申請大塊的 2 的指數幂大小的記憶體空間
- 外部碎片避免——夥伴系統算法
- 内部碎片避免——slab 算法
- 自己進行記憶體管理工作,設計記憶體池
2、夥伴系統算法——組織結構
1) 概念
- 為核心提供了一種用于配置設定一組連續的頁而建立的一種高效的配置設定政策,并有效的解決了外碎片問題
- 配置設定的記憶體區是以頁框為基本機關
2) 外部碎片
- 外部碎片指的是還沒有被配置設定出去(不屬于任何程序),但由于太小了無法配置設定給申請記憶體空間的新程序的記憶體空閑區域3) 組織結構
- 把所有的空閑頁分組為 11 個塊連結清單,每個塊連結清單分别包含大小為 1,2,4,8,16,32,64,128,256,512 和 1024 個連續頁框的頁塊。最大可以申請 1024 個連續頁,對應 4MB 大小的連續記憶體
3、夥伴系統算法——申請和回收
1) 申請算法
- 申請 2^i 個頁塊存儲空間,如果 2^i 對應的塊連結清單有空閑頁塊,則配置設定給應用
- 如果沒有空閑頁塊,則查找 2^(i 1) 對應的塊連結清單是否有空閑頁塊,如果有,則配置設定 2^i 塊連結清單節點給應用,另外 2^i 塊連結清單節點插入到 2^i 對應的塊連結清單中
- 如果 2^(i 1) 塊連結清單中沒有空閑頁塊,則重複步驟 2,直到找到有空閑頁塊的塊連結清單
- 如果仍然沒有,則傳回記憶體配置設定失敗
2) 回收算法
- 釋放 2^i 個頁塊存儲空間,查找 2^i 個頁塊對應的塊連結清單,是否有與其實體位址是連續的頁塊,如果沒有,則無需合并
- 如果有,則合并成 2^(i 1)的頁塊,以此類推,繼續查找下一級塊連結,直到不能合并為止
3) 條件
- 兩個塊具有相同的大小
- 它們的實體位址是連續的
- 頁塊大小相同
4、如何配置設定 4M 以上記憶體?
1) 為何限制大塊記憶體配置設定
- 配置設定的記憶體越大, 失敗的可能性越大
- 大塊記憶體使用場景少
2) 核心中擷取 4M 以上大記憶體的方法
- 修改 MAX_ORDER, 重新編譯核心
- 核心啟動選型傳遞"mem="參數, 如"mem=80M,預留部分記憶體;然後通過
- request_mem_region 和 ioremap_nocache 将預留的記憶體映射到子產品中。需要修改核心啟動參數, 無需重新編譯核心. 但這種方法不支援 x86 架構, 隻支援 ARM, PowerPC 等非 x86 架構
- 在 start_kernel 中 mem_init 函數之前調用 alloc_boot_mem 函數預配置設定大塊記憶體, 需要重新編譯核心
- vmalloc 函數,核心代碼使用它來配置設定在虛拟記憶體中連續但在實體記憶體中不一定連續的記憶體
5、夥伴系統——反碎片機制
1) 不可移動頁
- 這些頁在記憶體中有固定的位置,不能夠移動,也不可回收
- 核心代碼段,資料段,核心 kmalloc() 出來的記憶體,核心線程占用的記憶體等
2) 可回收頁
- 這些頁不能移動,但可以删除。核心在回收頁占據了太多的記憶體時或者記憶體短缺時進行頁面回收3) 可移動頁
- 這些頁可以任意移動,使用者空間應用程式使用的頁都屬于該類别。它們是通過頁表映射的
- 當它們移動到新的位置,頁表項也會相應的更新
6、slab 算法——基本原理
1) 基本概念
- Linux 所使用的 slab 配置設定器的基礎是 Jeff Bonwick 為 SunOS 作業系統首次引入的一種算法
- 它的基本思想是将核心中經常使用的對象放到高速緩存中,并且由系統保持為初始的可利用狀态。比如程序描述符,核心中會頻繁對此資料進行申請和釋放
2) 内部碎片
- 已經被配置設定出去的的記憶體空間大于請求所需的記憶體空間3) 基本目标
- 減少夥伴算法在配置設定小塊連續記憶體時所産生的内部碎片
- 将頻繁使用的對象緩存起來,減少配置設定、初始化和釋放對象的時間開銷
- 通過着色技術調整對象以更好的使用硬體高速緩存
7、slab 配置設定器的結構
- 由于對象是從 slab 中配置設定和釋放的,是以單個 slab 可以在 slab 清單之間進行移動
- slabs_empty 清單中的 slab 是進行回收(reaping)的主要備選對象
- slab 還支援通用對象的初始化,進而避免了為同一目而對一個對象重複進行初始化
詳細參考:
經典|圖解Linux記憶體性能優化核心思想
8、slab 高速緩存
1) 普通高速緩存
- slab 配置設定器所提供的小塊連續記憶體的配置設定是通過通用高速緩存實作的
- 通用高速緩存所提供的對象具有幾何分布的大小,範圍為 32 到 131072 位元組。
- 核心中提供了 kmalloc() 和 kfree() 兩個接口分别進行記憶體的申請和釋放
2) 專用高速緩存
- 核心為專用高速緩存的申請和釋放提供了一套完整的接口,根據所傳入的參數為具體的對象配置設定 slab 緩存
- kmem_cache_create() 用于對一個指定的對象建立高速緩存。它從 cache_cache 普通高速緩存中為新的專有緩存配置設定一個高速緩存描述符,并把這個描述符插入到高速緩存描述符形成的 cache_chain 連結清單中
- kmem_cache_alloc() 在其參數所指定的高速緩存中配置設定一個 slab。相反, kmem_cache_free() 在其參數所指定的高速緩存中釋放一個 slab
9、核心态記憶體池
1) 基本原理
- 先申請配置設定一定數量的、大小相等(一般情況下) 的記憶體塊留作備用
- 當有新的記憶體需求時,就從記憶體池中分出一部分記憶體塊,若記憶體塊不夠再繼續申請新的記憶體
- 這樣做的一個顯著優點是盡量避免了記憶體碎片,使得記憶體配置設定效率得到提升
2) 核心 API
- mempool_create 建立記憶體池對象
- mempool_alloc 配置設定函數獲得該對象
- mempool_free 釋放一個對象
- mempool_destroy 銷毀記憶體池
10、使用者态記憶體池
1) C++ 執行個體
11、DMA 記憶體
1) 什麼是 DMA
- 直接記憶體通路是一種硬體機制,它允許外圍裝置和主記憶體之間直接傳輸它們的 I/O 資料,而不需要系統處理器的參與2) DMA 控制器的功能
- 能向 CPU 發出系統保持(HOLD)信号,提出總線接管請求
- 當 CPU 發出允許接管信号後,負責對總線的控制,進入 DMA 方式
- 能對存儲器尋址及能修改位址指針,實作對記憶體的讀寫操作
- 能決定本次 DMA 傳送的位元組數,判斷 DMA 傳送是否結束
- 發出 DMA 結束信号,使 CPU 恢複正常工作狀态
2) DMA 信号
- DREQ:DMA 請求信号。是外設向 DMA 控制器提出要求,DMA 操作的申請信号
- DACK:DMA 響應信号。是 DMA 控制器向提出 DMA 請求的外設表示已收到請求和正進行處理的信号
- HRQ:DMA 控制器向 CPU 發出的信号,要求接管總線的請求信号。
- HLDA:CPU 向 DMA 控制器發出的信号,允許接管總線的應答信号:
四、 記憶體使用場景
out of memory 的時代過去了嗎?no,記憶體再充足也不可任性使用。
1、記憶體的使用場景
- page 管理
- slab(kmalloc、記憶體池)
- 使用者态記憶體使用(malloc、relloc 檔案映射、共享記憶體)
- 程式的記憶體 map(棧、堆、code、data)
- 核心和使用者态的資料傳遞(copy_from_user、copy_to_user)
- 記憶體映射(硬體寄存器、保留記憶體)
- DMA 記憶體
2、使用者态記憶體配置設定函數
- alloca 是向棧申請記憶體,是以無需釋放
- malloc 所配置設定的記憶體空間未被初始化,使用 malloc() 函數的程式開始時(記憶體空間還沒有被重新配置設定) 能正常運作,但經過一段時間後(記憶體空間已被重新配置設定) 可能會出現問題
- calloc 會将所配置設定的記憶體空間中的每一位都初始化為零
- realloc 擴充現有記憶體空間大小
a) 如果目前連續記憶體塊足夠 realloc 的話,隻是将 p 所指向的空間擴大,并傳回 p 的指針位址。這個時候 q 和 p 指向的位址是一樣的
b) 如果目前連續記憶體塊不夠長度,再找一個足夠長的地方,配置設定一塊新的記憶體,q,并将 p 指向的内容 copy 到 q,傳回 q。并将 p 所指向的記憶體空間删除
- mmap 将一個檔案或者其它對象映射進記憶體,多程序可通路
3、核心态記憶體配置設定函數
- get_free_pages直接對頁框進行操作,适用于配置設定較大量的連續實體記憶體
- kmem_cache_alloc基于 slab 機制實作,适合需要頻繁申請釋放相同大小記憶體塊,kmalloc基于kmem_cache_alloc實作128KB最常見的配置設定方式,需要小于頁框大小的記憶體時可以使用
- vmalloc建立非連續實體記憶體到虛拟位址的映射實體不連續,适合需要大記憶體,但是對位址連續性沒有要求的場合
- dma_alloc_coherent基于_alloc_pages 實作4MB适用于 DMA 操作ioremap實作已知實體位址到虛拟位址的映射,适用于實體位址已知的場合,如裝置驅動alloc_bootmem在啟動 kernel 時,預留一段記憶體,核心看不見小于實體記憶體大小,記憶體管理要求較高
4、malloc 申請記憶體
- 調用malloc函數時,它沿 free_chuck_list 連接配接表尋找一個大到足以滿足使用者請求所需要的記憶體塊
- free_chuck_list 連接配接表的主要工作是維護一個空閑的堆空間緩沖區連結清單
- 如果空間緩沖區連結清單沒有找到對應的節點,需要通過系統調用 sys_brk 延伸程序的棧空間
5、缺頁異常
- 通過get_free_pages 申請一個或多個實體頁面,換算 addr 在程序 pdg 映射中所在的 pte 位址,将 addr 對應的 pte 設定為實體頁面的首位址
- 系統調用:Brk—申請記憶體小于等于 128kb,do_map—申請記憶體大于 128kb
6、使用者程序通路記憶體分析
- 使用者态程序獨占虛拟位址空間,兩個程序的虛拟位址可相同
- 在通路使用者态虛拟位址空間時,如果沒有映射實體位址,通過系統調用發出缺頁異常
- 缺頁異常陷入核心,配置設定實體位址空間,與使用者态虛拟位址建立映射
7、共享記憶體
1) 原理
- 它允許多個不相關的程序去通路同一部分邏輯記憶體
- 兩個運作中的程序之間傳輸資料,共享記憶體将是一種效率極高的解決方案
- 兩個運作中的程序共享資料,是程序間通信的高效方法,可有效減少資料拷貝的次數
2) shm 接口
- shmget 建立共享記憶體
- shmat 啟動對該共享記憶體的通路,并把共享記憶體連接配接到目前程序的位址空間
- shmdt 将共享記憶體從目前程序中分離
五、 記憶體使用那些坑
1、C 記憶體洩露
- 在類的構造函數和析構函數中沒有比對地調用 new 和 delete 函數
- 沒有正确地清除嵌套的對象指針
- 沒有将基類的析構函數定義為虛函數
- 當基類的指針指向子類對象時,如果基類的析構函數不是 virtual,那麼子類的析構函數将不會被調用,子類的資源沒有得到正确釋放,是以造成記憶體洩露
- 缺少拷貝構造函數,按值傳遞會調用(拷貝)構造函數,引用傳遞不會調用
- 指向對象的指針數組不等同于對象數組,數組中存放的是指向對象的指針,不僅要釋放每個對象的空間,還要釋放每個指針的空間
- 缺少重載指派運算符,也是逐個成員拷貝的方式複制對象,如果這個類的大小是可變的,那麼結果就是造成記憶體洩露
2、C 野指針
- 指針變量沒有初始化
- 指針被 free 或 delete 後,沒有設定為 NULL
- 指針操作超越了變量的作用範圍,比如傳回指向棧記憶體的指針就是野指針
- 通路空指針(需要做空判斷)
- sizeof 無法擷取數組的大小
- 試圖修改常量,如:char p="1234";p='1'
3、C 資源通路沖突
- 多線程共享變量沒有用 valotile 修飾
- 多線程通路全局變量未加鎖
- 全局變量僅對單程序有效
- 多程序寫共享記憶體資料,未做同步處理
- mmap 記憶體映射,多程序不安全
4、STL 疊代器失效
- 被删除的疊代器失效
- 添加元素(insert/push_back 等)、删除元素導緻順序容器疊代器失效
錯誤示例:删除目前疊代器,疊代器會失效
正确示例:疊代器 erase 時,需儲存下一個疊代器
5、C++ 11 智能指針
- auto_ptr 替換為 unique_ptr
- 使用make_shared 初始化一個 shared_ptr
- weak_ptr 智能指針助手
(1)原理分析:
(2)資料結構:
(3)使用方法:
- lock() 擷取所管理的對象的強引用指針
- expired() 檢測所管理的對象是否已經釋放
- get() 通路智能指針對象
6、C++ 11 更小更快更安全
- std::atomic 原子資料類型 多線程安全
- std::array 定長數組開銷比 array 小和 std::vector 不同的是 array 的長度是固定的,不能動态拓展
- std::vector vector 瘦身 shrink_to_fit():将 capacity 減少為于 size() 相同的大小
- std::forward_list是單連結清單(std::list 是雙連結清單),隻需要順序周遊的場合,forward_list 能更加節省記憶體,插入和删除的性能高于 list。
- std::unordered_map、std::unordered_set用 hash 實作的無序的容器,插入、删除和查找的時間複雜度都是 O(1),在不關注容器内元素順序的場合,使用 unordered 的容器能獲得更高的性能
六、 如何檢視記憶體
- 系統中記憶體使用情況:/proc/meminfo
$cat /proc/meminfoMemTotal:
8052444 kB #所有記憶體(RAM)大小,減去一些預留白間和核心的大小。
MemFree: 2754588 kB #完全沒有用到的實體記憶體,lowFree+highFree
MemAvailable: 3934252 kB #在不使用交換空間的情況下,啟動一個新的應用最大可用記憶體的大小,計算方式:MemFree+Active(file)+Inactive(file)-(watermark+min(watermark,Active(file)+Inactive(file)/2))
Buffers: 137128 kB #塊裝置所占用的緩存頁,包括:直接讀寫塊裝置以及檔案系統中繼資料(metadata),比如superblock使用的緩存頁。
Cached: 1948128 kB #表示普通檔案資料所占用的緩存頁。
SwapCached: 0 kB #swap cache中包含的是被确定要swapping換頁,但是尚未寫入實體交換區的匿名記憶體頁。那些匿名記憶體頁,比如使用者程序malloc申請的記憶體頁是沒有關聯任何檔案的,如果發生swapping換頁,這類記憶體會被寫入到交換區。
Active: 3650920 kB #active包含active anon和active file
Inactive: 1343420 kB #inactive包含inactive anon和inactive file
Active(anon): 2913304 kB #anonymous pages(匿名頁),使用者程序的記憶體頁分為兩種:與檔案關聯的記憶體頁(比如程式檔案,資料檔案對應的記憶體頁)和與記憶體無關的記憶體頁(比如程序的堆棧,用malloc申請的記憶體),前者稱為file pages或mapped pages,後者稱為匿名頁。
Inactive(anon): 727808 kB #見上
Active(file): 737616 kB #見上
Inactive(file): 615612 kB #見上
SwapTotal: 8265724 kB #可用的swap空間的總的大小(swap分區在實體記憶體不夠的情況下,把硬碟空間的一部分釋放出來,以供目前程式使用)
SwapFree: 8265724 kB #目前剩餘的swap的大小
Dirty: 104 kB #需要寫入磁盤的記憶體去的大小
Writeback: 0 kB #正在被寫回的記憶體區的大小
AnonPages: 2909332 kB #未映射頁的記憶體的大小
Mapped: 815524 kB #裝置和檔案等映射的大小
Shmem: 732032 kB #共享記憶體大小
Slab: 153096 kB #核心資料結構slab的大小
SReclaimable: 99684 kB #可回收的slab的大小
SUnreclaim: 53412 kB #不可回收的slab的大小
KernelStack: 14288 kB
PageTables: 62192 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 12291944 kB
Committed_AS: 11398920 kB
VmallocTotal: 34359738367 kB
VmallocUsed: 0 kB
VmallocChunk: 0 kB
HardwareCorrupted: 0 kB
AnonHugePages: 1380352 kB
CmaTotal: 0 kB
CmaFree: 0 kB
HugePages_Total: 0
HugePages_Free: 0
HugePages_Rsvd: 0
HugePages_Surp: 0
Hugepagesize: 2048 kB
DirectMap4k: 201472 kB
DirectMap2M: 5967872 kB
DirectMap1G: 3145728 kB
- 查詢記憶體總使用率:free
- 查詢程序 cpu 和記憶體使用占比:top
- 虛拟記憶體統計:vmstat
- 程序消耗記憶體占比和排序:ps aux –sort -rss
-
檢視夥伴系統資訊
目前系統的buddy狀态可以通過
指令檢視cat /proc/buddyinfo
cat /proc/buddyinfo
Node 0, zone DMA 23 15 4 5 2 3 3 2 3 1 0
Node 0, zone Normal 149 100 52 33 23 5 32 8 12 2 59
Node 0, zone HighMem 11 21 23 49 29 15 8 16 12 2 142
- 檢視slab資訊
cat /proc/slabinfo
slabinfo - version: 2.1
# name <active_objs> <num_objs> <objsize> <objperslab> <pagesperslab> : tunables <limit> <batchcount> <sharedfactor> : slabdata <active_slabs> <num_slabs> <sharedavail>
bridge_fdb_cache 0 0 64 59 1 : tunables 120 60 0 : slabdata 0 0 0
nf_conntrack_expect 0 0 240 16 1 : tunables 120 60 0 : slabdata 0 0 0
nf_conntrack_ffffffff81f6f600 0 0 304 13 1 : tunables 54 27 0 : slabdata 0 0 0
iser_descriptors 0 0 128 30 1 : tunables 120 60 0 : slabdata 0 0 0
ib_mad 0 0 448 8 1 : tunables 54 27 0 : slabdata 0 0 0
fib6_nodes 22 59 64 59 1 : tunables 120 60 0 : slabdata 1 1 0
ip6_dst_cache 13 24 320 12 1 : tunables 54 27 0 : slabdata 2 2 0
ndisc_cache 1 10 384 10 1 : tunables 54 27 0 : slabdata 1 1 0
ip6_mrt_cache 0 0 128 30 1 : tunables 120 60 0 : slabdata 0 0 0
- 釋放系統記憶體緩存
#To free pagecache, use
echo 1 > /proc/sys/vm/drop_caches
#To free dentries and inodes, use
echo 2 > /proc/sys/vm/drop_caches
#To free pagecache, dentries and inodes, use
echo 3 >/proc/sys/vm/drop_cache