天天看點

Linux記憶體管理之mmap詳解

http://kenby.iteye.com/blog/1164700

共享記憶體可以說是最有用的程序間通信方式,也是最快的IPC形式, 因為程序可以直接讀寫記憶體,而不需要任何

資料的拷貝。對于像管道和消息隊列等通信方式,則需要在核心和使用者空間進行四次的資料拷貝,而共享記憶體則

隻拷貝兩次資料: 一次從輸入檔案到共享記憶體區,另一次從共享記憶體區到輸出檔案。實際上,程序之間在共享内

存時,并不總是讀寫少量資料後就解除映射,有新的通信時,再重建立立共享記憶體區域。而是保持共享區域,直

到通信完畢為止,這樣,資料内容一直儲存在共享記憶體中,并沒有寫回檔案。共享記憶體中的内容往往是在解除映

射時才寫回檔案的。是以,采用共享記憶體的通信方式效率是非常高的。

一. 傳統檔案通路

UNIX通路檔案的傳統方法是用open打開它們, 如果有多個程序通路同一個檔案, 則每一個程序在自己的位址空間都包含有該

檔案的副本,這不必要地浪費了存儲空間. 下圖說明了兩個程序同時讀一個檔案的同一頁的情形. 系統要将該頁從磁盤讀到高

速緩沖區中, 每個程序再執行一個存儲器内的複制操作将資料從高速緩沖區讀到自己的位址空間.

Linux記憶體管理之mmap詳解

二. 共享存儲映射

現在考慮另一種處理方法: 程序A和程序B都将該頁映射到自己的位址空間, 當程序A第一次通路該頁中的資料時, 它生成一

個缺頁中斷. 核心此時讀入這一頁到記憶體并更新頁表使之指向它.以後, 當程序B通路同一頁面而出現缺頁中斷時, 該頁已經在

記憶體, 核心隻需要将程序B的頁表登記項指向次頁即可. 如下圖所示: 

Linux記憶體管理之mmap詳解

三、mmap()及其相關系統調用

mmap()系統調用使得程序之間通過映射同一個普通檔案實作共享記憶體。普通檔案被映射到程序位址空間後,程序可以向訪

問普通記憶體一樣對檔案進行通路,不必再調用read(),write()等操作。

mmap()系統調用形式如下:

void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset ) 

mmap的作用是映射檔案描述符fd指定檔案的 [off,off + len]區域至調用程序的[addr, addr + len]的記憶體區域, 如下圖所示:

Linux記憶體管理之mmap詳解

參數fd為即将映射到程序空間的檔案描述字,一般由open()傳回,同時,fd可以指定為-1,此時須指定flags參數中的

MAP_ANON,表明進行的是匿名映射(不涉及具體的檔案名,避免了檔案的建立及打開,很顯然隻能用于具有親緣關系的

程序間通信)。

len是映射到調用程序位址空間的位元組數,它從被映射檔案開頭offset個位元組開始算起。

prot 參數指定共享記憶體的通路權限。可取如下幾個值的或:PROT_READ(可讀) , PROT_WRITE (可寫), PROT_EXEC (可執行), PROT_NONE(不可通路)。

flags由以下幾個常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必

選其一,而MAP_FIXED則不推薦使用。

offset參數一般設為0,表示從檔案頭開始映射。

參數addr指定檔案應被映射到程序空間的起始位址,一般被指定一個空指針,此時選擇起始位址的任務留給核心來完成。函

數的傳回值為最後檔案映射到程序空間的位址,程序可直接操作起始位址為該值的有效位址。

四. mmap的兩個例子

範例中使用的測試檔案 data.txt: 

Linux記憶體管理之mmap詳解

aaaaaaaaa  

bbbbbbbbb  

ccccccccc  

ddddddddd  

1 通過共享映射的方式修改檔案

Linux記憶體管理之mmap詳解

#include <sys/mman.h>  

#include <sys/stat.h>  

#include <fcntl.h>  

#include <stdio.h>  

#include <stdlib.h>  

#include <unistd.h>  

#include <error.h>  

#define BUF_SIZE 100  

int main(int argc, char **argv)  

{  

    int fd, nread, i;  

    struct stat sb;  

    char *mapped, buf[BUF_SIZE];  

    for (i = 0; i < BUF_SIZE; i++) {  

        buf[i] = '#';  

    }  

    /* 打開檔案 */  

    if ((fd = open(argv[1], O_RDWR)) < 0) {  

        perror("open");  

    /* 擷取檔案的屬性 */  

    if ((fstat(fd, &sb)) == -1) {  

        perror("fstat");  

    /* 将檔案映射至程序的位址空間 */  

    if ((mapped = (char *)mmap(NULL, sb.st_size, PROT_READ |   

                    PROT_WRITE, MAP_SHARED, fd, 0)) == (void *)-1) {  

        perror("mmap");  

    /* 映射完後, 關閉檔案也可以操縱記憶體 */  

    close(fd);  

    printf("%s", mapped);  

    /* 修改一個字元,同步到磁盤檔案 */  

    mapped[20] = '9';  

    if ((msync((void *)mapped, sb.st_size, MS_SYNC)) == -1) {  

        perror("msync");  

    /* 釋放存儲映射區 */  

    if ((munmap((void *)mapped, sb.st_size)) == -1) {  

        perror("munmap");  

    return 0;  

}  

2 私有映射無法修改檔案

/* 将檔案映射至程序的位址空間 */

if ((mapped = (char *)mmap(NULL, sb.st_size, PROT_READ | 

                    PROT_WRITE, MAP_PRIVATE, fd, 0)) == (void *)-1) {

    perror("mmap");

}

五. 使用共享映射實作兩個程序之間的通信

兩個程式映射同一個檔案到自己的位址空間, 程序A先運作, 每隔兩秒讀取映射區域, 看是否發生變化. 

程序B後運作, 它修改映射區域, 然後推出, 此時程序A能夠觀察到存儲映射區的變化

程序A的代碼:

Linux記憶體管理之mmap詳解

    /* 檔案已在記憶體, 關閉檔案也可以操縱記憶體 */  

    /* 每隔兩秒檢視存儲映射區是否被修改 */  

    while (1) {  

        printf("%s\n", mapped);  

        sleep(2);  

程序B的代碼:

Linux記憶體管理之mmap詳解

    /* 私有檔案映射将無法修改檔案 */  

                    PROT_WRITE, MAP_PRIVATE, fd, 0)) == (void *)-1) {  

    /* 修改一個字元 */  

六. 通過匿名映射實作父子程序通信

Linux記憶體管理之mmap詳解

int main(int argc, char** argv)  

    char    *p_map;  

    /* 匿名映射,建立一塊記憶體供父子程序通信 */  

    p_map = (char *)mmap(NULL, BUF_SIZE, PROT_READ | PROT_WRITE,  

            MAP_SHARED | MAP_ANONYMOUS, -1, 0);  

    if(fork() == 0) {  

        sleep(1);  

        printf("child got a message: %s\n", p_map);  

        sprintf(p_map, "%s", "hi, dad, this is son");  

        munmap(p_map, BUF_SIZE); //實際上,程序終止時,會自動解除映射。  

        exit(0);  

    sprintf(p_map, "%s", "hi, this is father");  

    sleep(2);  

    printf("parent got a message: %s\n", p_map);  

七. 對mmap()傳回位址的通路

linux采用的是頁式管理機制。對于用mmap()映射普通檔案來說,程序會在自己的位址空間新增一塊空間,空間大

小由mmap()的len參數指定,注意,程序并不一定能夠對全部新增空間都能進行有效通路。程序能夠通路的有效位址大小取決于檔案被映射部分的大小。簡單的說,能夠容納檔案被映射部分大小的最少頁面個數決定了程序從mmap()傳回的位址開始,能夠有效通路的位址空間大小。超過這個空間大小,核心會根據超過的嚴重程度傳回發送不同的信号給程序。可用如下圖示說明:

Linux記憶體管理之mmap詳解

總結一下就是, 檔案大小, mmap的參數 len 都不能決定程序能通路的大小, 而是容納檔案被映射部分的最小頁面數決定

程序能通路的大小. 下面看一個執行個體:

Linux記憶體管理之mmap詳解

#include <sys/types.h>  

    int fd,i;  

    int pagesize,offset;  

    char *p_map;  

    /* 取得page size */  

    pagesize = sysconf(_SC_PAGESIZE);  

    printf("pagesize is %d\n",pagesize);  

    fd = open(argv[1], O_RDWR, 00777);  

    fstat(fd, &sb);  

    printf("file size is %zd\n", (size_t)sb.st_size);  

    offset = 0;   

    p_map = (char *)mmap(NULL, pagesize * 2, PROT_READ|PROT_WRITE,   

            MAP_SHARED, fd, offset);  

    p_map[sb.st_size] = '9';  /* 導緻總線錯誤 */  

    p_map[pagesize] = '9';    /* 導緻段錯誤 */  

    munmap(p_map, pagesize * 2);  

一. mmap系統調用

1. mmap系統調用    

    mmap将一個檔案或者其它對象映射進記憶體。檔案被映射到多個頁上,如果檔案的大小不是所有頁的大小之和,最後一個頁不被使用的空間将會清零。munmap執行相反的操作,删除特定位址區域的對象映射。

當使用mmap映射檔案到程序後,就可以直接操作這段虛拟位址進行檔案的讀寫等操作,不必再調用read,write等系統調用.但需注意,直接對該段記憶體寫時不會寫入超過目前檔案大小的内容.

采用共享記憶體通信的一個顯而易見的好處是效率高,因為程序可以直接讀寫記憶體,而不需要任何資料的拷貝。對于像管道和消息隊列等通信方式,則需要在核心和使用者空間進行四次的資料拷貝,而共享記憶體則隻拷貝兩次資料:一次從輸入檔案到共享記憶體區,另一次從共享記憶體區到輸出檔案。實際上,程序之間在共享記憶體時,并不總是讀寫少量資料後就解除映射,有新的通信時,再重建立立共享記憶體區域。而是保持共享區域,直到通信完畢為止,這樣,資料内容一直儲存在共享記憶體中,并沒有寫回檔案。共享記憶體中的内容往往是在解除映射時才寫回檔案的。是以,采用共享記憶體的通信方式效率是非常高的。  

    基于檔案的映射,在mmap和munmap執行過程的任何時刻,被映射檔案的st_atime可能被更新。如果st_atime字段在前述的情況下沒有得到更新,首次對映射區的第一個頁索引時會更新該字段的值。用PROT_WRITE 和 MAP_SHARED标志建立起來的檔案映射,其st_ctime 和 st_mtime在對映射區寫入之後,但在msync()通過MS_SYNC 和 MS_ASYNC兩個标志調用之前會被更新。

用法:

#include <sys/mman.h>

void *mmap(void *start, size_t length, int prot, int flags,

int fd, off_t offset);

int munmap(void *start, size_t length);

傳回說明:

成功執行時,mmap()傳回被映射區的指針,munmap()傳回0。失敗時,mmap()傳回MAP_FAILED[其值為(void *)-1],munmap傳回-1。errno被設為以下的某個值

EACCES:通路出錯

EAGAIN:檔案已被鎖定,或者太多的記憶體已被鎖定

EBADF:fd不是有效的檔案描述詞

EINVAL:一個或者多個參數無效

ENFILE:已達到系統對打開檔案的限制

ENODEV:指定檔案所在的檔案系統不支援記憶體映射

ENOMEM:記憶體不足,或者程序已超出最大記憶體映射數量

EPERM:權能不足,操作不允許

ETXTBSY:已寫的方式打開檔案,同時指定MAP_DENYWRITE标志

SIGSEGV:試着向隻讀區寫入

SIGBUS:試着通路不屬于程序的記憶體區

參數:

start:映射區的開始位址。

length:映射區的長度。

prot:期望的記憶體保護标志,不能與檔案的打開模式沖突。是以下的某個值,可以通過or運算合理地組合在一起

PROT_EXEC //頁内容可以被執行

PROT_READ //頁内容可以被讀取

PROT_WRITE //頁可以被寫入

PROT_NONE //頁不可通路

flags:指定映射對象的類型,映射選項和映射頁是否可以共享。它的值可以是一個或者多個以下位的組合體

MAP_FIXED //使用指定的映射起始位址,如果由start和len參數指定的記憶體區重疊于現存的映射空間,重疊部分将會被丢棄。如果指定的起始位址不可用,操作将會失敗。并且起始位址必須落在頁的邊界上。

MAP_SHARED //與其它所有映射這個對象的程序共享映射空間。對共享區的寫入,相當于輸出到檔案。直到msync()或者munmap()被調用,檔案實際上不會被更新。

MAP_PRIVATE //建立一個寫入時拷貝的私有映射。記憶體區域的寫入不會影響到原檔案。這個标志和以上标志是互斥的,隻能使用其中一個。

MAP_DENYWRITE //這個标志被忽略。

MAP_EXECUTABLE //同上

MAP_NORESERVE //不要為這個映射保留交換空間。當交換空間被保留,對映射區修改的可能會得到保證。當交換空間不被保留,同時記憶體不足,對映射區的修改會引起段違例信号。

MAP_LOCKED //鎖定映射區的頁面,進而防止頁面被交換出記憶體。

MAP_GROWSDOWN //用于堆棧,告訴核心VM系統,映射區可以向下擴充。

MAP_ANONYMOUS //匿名映射,映射區不與任何檔案關聯。

MAP_ANON //MAP_ANONYMOUS的别稱,不再被使用。

MAP_FILE //相容标志,被忽略。

MAP_32BIT //将映射區放在程序位址空間的低2GB,MAP_FIXED指定時會被忽略。目前這個标志隻在x86-64平台上得到支援。

MAP_POPULATE //為檔案映射通過預讀的方式準備好頁表。随後對映射區的通路不會被頁違例阻塞。

MAP_NONBLOCK //僅和MAP_POPULATE一起使用時才有意義。不執行預讀,隻為已存在于記憶體中的頁面建立頁表入口。

fd:有效的檔案描述詞。如果MAP_ANONYMOUS被設定,為了相容問題,其值應為-1。

offset:被映射對象内容的起點。

2. 系統調用munmap() 

int munmap( void * addr, size_t len ) 

該調用在程序位址空間中解除一個映射關系,addr是調用mmap()時傳回的位址,len是映射區的大小。當映射關系解除後,對原來映射位址的通路将導緻段錯誤發生。 

3. 系統調用msync() 

int msync ( void * addr , size_t len, int flags) 

一般說來,程序在映射空間的對共享内容的改變并不直接寫回到磁盤檔案中,往往在調用munmap()後才執行該操作。可以通過調用msync()實作磁盤上檔案内容與共享記憶體區的内容一緻。  

二. 系統調用mmap()用于共享記憶體的兩種方式: 

(1)使用普通檔案提供的記憶體映射:适用于任何程序之間;此時,需要打開或建立一個檔案,然後再調用mmap();典型調用代碼如下: 

fd=open(name, flag, mode);

if(fd<0)

   ...

ptr=mmap(NULL,len

, PROT_READ|PROT_WRITE, MAP_SHARED, fd

, 0);

通過mmap()實作共享記憶體的通信方式有許多特點和要注意的地方

(2)使用特殊檔案提供匿名記憶體映射:适用于具有親緣關系的程序之間;由于父子程序特殊的親緣關系,在父程序中先調用mmap(),然後調用fork()。那麼在調用fork()之後,子程序繼承父程序匿名映射後的位址空間,同樣也繼承mmap()傳回的位址,這樣,父子程序就可以通過映射區域進行通信了。注意,這裡不是一般的繼承關系。一般來說,子程序單獨維護從父程序繼承下來的一些變量。而mmap()傳回的位址,卻由父子程序共同維護。 

對于具有親緣關系的程序實作共享記憶體最好的方式應該是采用匿名記憶體映射的方式。此時,不必指定具體的檔案,隻要設定相應的标志即可.

三. mmap進行記憶體映射的原理

     mmap系統調用的最終目的是将,裝置或檔案映射到使用者程序的虛拟位址空間,實作使用者程序對檔案的直接讀寫,這個任務可以分為以下三步:

1.在使用者虛拟位址空間中尋找空閑的滿足要求的一段連續的虛拟位址空間,為映射做準備(由核心mmap系統調用完成)

       每個程序擁有3G位元組的使用者虛存空間。但是,這并不意味着使用者程序在這3G的範圍内可以任意使用,因為虛存空間最終得映射到某個實體存儲空間(記憶體或磁盤空間),才真正可以使用。

       那麼,核心怎樣管理每個程序3G的虛存空間呢?概括地說,使用者程序經過編譯、連結後形成的映象檔案有一個代碼段和資料段(包括data段和bss段),其中代碼段在下,資料段在上。資料段中包括了所有靜态配置設定的資料空間,即全局變量和所有申明為static的局部變量,這些空間是程序所必需的基本要求,這些空間是在建立一個程序的運作映像時就配置設定好的。除此之外,堆棧使用的空間也屬于基本要求,是以也是在建立程序時就配置設定好的,如圖3.1所示:

Linux記憶體管理之mmap詳解

 圖3.1  程序虛拟空間的劃分

      在核心中,這樣每個區域用一個結構struct vm_area_struct 來表示.它描述的是一段連續的、具有相同通路屬性的虛存空間,該虛存空間的大小為實體記憶體頁面的整數倍。可以使用 cat /proc/<pid>/maps來檢視一個程序的記憶體使用情況,pid是程序号.其中顯示的每一行對應程序的一個vm_area_struct結構.

下面是struct vm_area_struct結構體的定義:

#include <linux/mm_types.h>

/* This struct defines a memory VMM memory area.*/

struct vm_area_struct {

struct mm_struct * vm_mm;/* VM area parameters*/

unsigned long vm_start;

unsigned long vm_end;

/* linked list of VM areas per task, sorted by address*/

struct vm_area_struct *vm_next;

pgprot_t vm_page_prot;

unsigned long vm_flags;

/* AVL tree of VM areas per task, sorted by address*/

short vm_avl_height;

struct vm_area_struct * vm_avl_left;

struct vm_area_struct * vm_avl_right;

/*

For areas with an address space

and backing store,

vm_area_struct *vm_next_share;

struct vm_area_struct **vm_pprev_share;

struct vm_operations_struct * vm_ops;

unsigned long vm_pgoff;

/* offset in PAGE_SIZE units,*not* PAGE_CACHE_SIZE*/

struct file * vm_file;

unsigned long vm_raend;

void * vm_private_data;/* was vm_pte(shared mem)*/

};

      通常,程序所使用到的虛存空間不連續,且各部分虛存空間的通路屬性也可能不同。是以一個程序的虛存空間需要多個vm_area_struct結構來描述。在vm_area_struct結構的數目較少的時候,各個vm_area_struct按照升序排序,以單連結清單的形式組織資料(通過vm_next指針指向下一個vm_area_struct結構)。但是當vm_area_struct結構的資料較多的時候,仍然采用連結清單組織的化,勢必會影響到它的搜尋速度。針對這個問題,vm_area_struct還添加了vm_avl_hight(樹高)、vm_avl_left(左子節點)、vm_avl_right(右子節點)三個成員來實作AVL樹,以提高vm_area_struct的搜尋速度。

  假如該vm_area_struct描述的是一個檔案映射的虛存空間,成員vm_file便指向被映射的檔案的file結構,vm_pgoff是該虛存空間起始位址在vm_file檔案裡面的檔案偏移,機關為實體頁面。

Linux記憶體管理之mmap詳解

圖3.2  程序虛拟位址示意圖 

是以,mmap系統調用所完成的工作就是準備這樣一段虛存空間,并建立vm_area_struct結構體,将其傳給具體的裝置驅動程式.

2. 建立虛拟位址空間和檔案或裝置的實體位址之間的映射(裝置驅動完成)

  建立檔案映射的第二步就是建立虛拟位址和具體的實體位址之間的映射,這是通過修改程序頁表來實作的.mmap方法是file_opeartions結構的成員:

  int (*mmap)(struct file *,struct vm_area_struct *);

linux有2個方法建立頁表:

(1) 使用remap_pfn_range一次建立所有頁表.

   int remap_pfn_range(struct vm_area_struct *vma, unsigned long virt_addr, unsigned long pfn, unsigned long size, pgprot_t prot); 

傳回值:

成功傳回 0, 失敗傳回一個負的錯誤值

參數說明:

vma 使用者程序建立一個vma區域

virt_addr 重新映射應當開始的使用者虛拟位址. 這個函數建立頁表為這個虛拟位址範圍從 virt_addr 到 virt_addr_size.

pfn 頁幀号, 對應虛拟位址應當被映射的實體位址. 這個頁幀号簡單地是實體位址右移 PAGE_SHIFT 位. 對大部分使用, VMA 結構的 vm_paoff 成員正好包含你需要的值. 這個函數影響實體位址從 (pfn<<PAGE_SHIFT) 到 (pfn<<PAGE_SHIFT)+size.

size 正在被重新映射的區的大小, 以位元組.

prot 給新 VMA 要求的"protection". 驅動可(并且應當)使用在vma->vm_page_prot 中找到的值.

(2) 使用nopage VMA方法每次建立一個頁表項.

   struct page *(*nopage)(struct vm_area_struct *vma, unsigned long address, int *type);

成功則傳回一個有效映射頁,失敗傳回NULL.

address 代表從使用者空間傳過來的使用者空間虛拟位址.

傳回一個有效映射頁.

(3) 使用方面的限制:

remap_pfn_range不能映射正常記憶體,隻存取保留頁和在實體記憶體頂之上的實體位址。因為保留頁和在實體記憶體頂之上的實體位址記憶體管理系統的各個子子產品管理不到。640 KB 和 1MB 是保留頁可能映射,裝置I/O記憶體也可以映射。如果想把kmalloc()申請的記憶體映射到使用者空間,則可以通過mem_map_reserve()把相應的記憶體設定為保留後就可以。

3. 當實際通路新映射的頁面時的操作(由缺頁中斷完成)

(1)  page cache及swap cache中頁面的區分:一個被通路檔案的實體頁面都駐留在page cache或swap cache中,一個頁面的所有資訊由struct page來描述。struct page中有一個域為指針mapping ,它指向一個struct address_space類型結構。page cache或swap cache中的所有頁面就是根據address_space結構以及一個偏移量來區分的。

(2) 檔案與 address_space結構的對應:一個具體的檔案在打開後,核心會在記憶體中為之建立一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個檔案就對應一個address_space結構,一個 address_space與一個偏移量能夠确定一個page cache 或swap cache中的一個頁面。是以,當要尋址某個資料時,很容易根據給定的檔案及資料在檔案内的偏移量而找到相應的頁面。 

(3) 程序調用mmap()時,隻是在程序空間内新增了一塊相應大小的緩沖區,并設定了相應的通路辨別,但并沒有建立程序空間到實體頁面的映射。是以,第一次通路該空間時,會引發一個缺頁異常。 

(4) 對于共享記憶體映射情況,缺頁異常處理程式首先在swap cache中尋找目标頁(符合address_space以及偏移量的實體頁),如果找到,則直接傳回位址;如果沒有找到,則判斷該頁是否在交換區 (swap area),如果在,則執行一個換入操作;如果上述兩種情況都不滿足,處理程式将配置設定新的實體頁面,并把它插入到page cache中。程序最終将更新程序頁表。 

     注:對于映射普通檔案情況(非共享映射),缺頁異常處理程式首先會在page cache中根據address_space以及資料偏移量尋找相應的頁面。如果沒有找到,則說明檔案資料還沒有讀入記憶體,處理程式會從磁盤讀入相應的頁面,并傳回相應位址,同時,程序頁表也會更新.

(5) 所有程序在映射同一個共享記憶體區域時,情況都一樣,在建立線性位址與實體位址之間的映射之後,不論程序各自的傳回位址如何,實際通路的必然是同一個共享記憶體區域對應的實體頁面。 

繼續閱讀