介紹Linux記憶體管理和記憶體映射的奧秘。同時講述裝置驅動程式是如何使用“直接記憶體通路”(DMA)的。盡管你可能反對,認為DMA更屬于硬體處理而不是軟體接口,但我覺得與硬體控制比起來,它與記憶體管理更相關。這一章比較進階;大多數驅動程式的作者并不需要太深入到系統内部。不過了解記憶體如何工作可以幫助你在設計驅動程式時有效地利用系統的能力。
共 享記憶體可以說是最有用的程序間通信方式,也是最快的IPC形式。兩個不同程序A、B共享記憶體的意思是,同一塊實體記憶體被映射到程序A、B各自的程序位址空 間。程序A可以即時看到程序B對共享記憶體中資料的更新,反之亦然。由于多個程序共享同一塊記憶體區域,必然需要某種同步機制,互斥鎖和信号量都可以。
采用共享記憶體通信的一個顯而易 見的好處是效率高,因為程序可以直接讀寫記憶體,而不需要任何資料的拷貝。對于像管道和消息隊列等通信方式,則需要在核心和使用者空間進行四次的資料拷貝,而 共享記憶體則隻拷貝兩次資料[1]:一次從輸入檔案到共享記憶體區,另一次從共享記憶體區到輸出檔案。實際上,程序之間在共享記憶體時,并不總是讀寫少量資料後就 解除映射,有新的通信時,再重建立立共享記憶體區域。而是保持共享區域,直到通信完畢為止,這樣,資料内容一直儲存在共享記憶體中,并沒有寫回檔案。共享記憶體 中的内容往往是在解除映射時才寫回檔案的。是以,采用共享記憶體的通信方式效率是非常高的。
Linux的2.2.x核心支援多 種共享記憶體方式,如mmap()系統調用,Posix共享記憶體,以及系統V共享記憶體。linux發行版本如Redhat 8.0支援mmap()系統調用及系統V共享記憶體,但還沒實作Posix共享記憶體,本文将主要介紹mmap()系統調用及系統V共享記憶體API的原理及應 用。
一、核心怎樣保證各個程序尋址到同一個共享記憶體區域的記憶體頁面
1、 page cache及swap cache中頁面的區分:一個被通路檔案的實體頁面都駐留在page cache或swap cache中,一個頁面的所有資訊由struct page來描述。struct page中有一個域為指針mapping ,它指向一個struct address_space類型結構。page cache或swap cache中的所有頁面就是根據address_space結構以及一個偏移量來區分的。
2、檔案與 address_space結構的對應:一個具體的檔案在打開後,核心會在記憶體中為之建立一個struct inode結構,其中的i_mapping域指向一個address_space結構。這樣,一個檔案就對應一個address_space結構,一個 address_space與一個偏移量能夠确定一個page cache 或swap cache中的一個頁面。是以,當要尋址某個資料時,很容易根據給定的檔案及資料在檔案内的偏移量而找到相應的頁面。
3、程序調用mmap()時,隻是在程序空間内新增了一塊相應大小的緩沖區,并設定了相應的通路辨別,但并沒有建立程序空間到實體頁面的映射。是以,第一次通路該空間時,會引發一個缺頁異常。
4、 對于共享記憶體映射情況,缺頁異常處理程式首先在swap cache中尋找目标頁(符合address_space以及偏移量的實體頁),如果找到,則直接傳回位址;如果沒有找到,則判斷該頁是否在交換區 (swap area),如果在,則執行一個換入操作;如果上述兩種情況都不滿足,處理程式将配置設定新的實體頁面,并把它插入到page cache中。程序最終将更新程序頁表。
注:對于映射普通檔案情況(非共享映射),缺頁異常處理程式首先會在page cache中根據address_space以及資料偏移量尋找相應的頁面。如果沒有找到,則說明檔案資料還沒有讀入記憶體,處理程式會從磁盤讀入相應的頁 面,并傳回相應位址,同時,程序頁表也會更新。
5、所有程序在映射同一個共享記憶體區域時,情況都一樣,在建立線性位址與實體位址之間的映射之後,不論程序各自的傳回位址如何,實際通路的必然是同一個共享記憶體區域對應的實體頁面。
注:一個共享記憶體區域可以看作是特殊檔案系統shm中的一個檔案,shm的安裝點在交換區上。
上面涉及到了一些資料結構,圍繞資料結構了解問題會容易一些。
回頁首
二、mmap()及其相關系統調用
mmap()系統調用使得程序之間通過映射同一個普通檔案實作共享記憶體。普通檔案被映射到程序位址空間後,程序可以向通路普通記憶體一樣對檔案進行通路,不必再調用read(),write()等操作。
注:實際上,mmap()系統調用并不是完全為了用于共享記憶體而設計的。它本身提供了不同于一般對普通檔案的通路方式,程序可以像讀寫記憶體一樣對普通檔案的操作。而Posix或系統V的共享記憶體IPC則純粹用于共享目的,當然mmap()實作共享記憶體也是其主要應用之一。
1、mmap()系統調用形式如下:
void* mmap ( void * addr , size_t len , int prot , int flags , int fd , off_t offset )
參 數fd為即将映射到程序空間的檔案描述字,一般由open()傳回,同時,fd可以指定為-1,此時須指定flags參數中的MAP_ANON,表明進 行的是匿名映射(不涉及具體的檔案名,避免了檔案的建立及打開,很顯然隻能用于具有親緣關系的程序間通信)。len是映射到調用程序位址空間的位元組數,它 從被映射檔案開頭offset個位元組開始算起。prot 參數指定共享記憶體的通路權限。可取如下幾個值的或:PROT_READ(可讀) , PROT_WRITE (可寫), PROT_EXEC (可執行), PROT_NONE(不可通路)。flags由以下幾個常值指定:MAP_SHARED , MAP_PRIVATE , MAP_FIXED,其中,MAP_SHARED , MAP_PRIVATE必選其一,而MAP_FIXED則不推薦使用。offset參數一般設為0,表示從檔案頭開始映射。參數addr指定檔案應被映射 到程序空間的起始位址,一般被指定一個空指針,此時選擇起始位址的任務留給核心來完成。函數的傳回值為最後檔案映射到程序空間的位址,程序可直接操作起始 位址為該值的有效位址。這裡不再詳細介紹mmap()的參數,讀者可參考mmap()手冊頁獲得進一步的資訊。
2、系統調用mmap()用于共享記憶體的兩種方式:
(1)使用普通檔案提供的記憶體映射:适用于任何程序之間; 此時,需要打開或建立一個檔案,然後再調用mmap();典型調用代碼如下:
fd=open(name, flag, mode);
if(fd<0)
...
ptr=mmap(NULL, len , PROT_READ|PROT_WRITE, MAP_SHARED , fd , 0); 通過mmap()實作共享記憶體的通信方式有許多特點和要注意的地方,我們将在範例中進行具體說明。
(2) 使用特殊檔案提供匿名記憶體映射:适用于具有親緣關系的程序之間; 由于父子程序特殊的親緣關系,在父程序中先調用mmap(),然後調用fork()。那麼在調用fork()之後,子程序繼承父程序匿名映射後的位址空 間,同樣也繼承mmap()傳回的位址,這樣,父子程序就可以通過映射區域進行通信了。注意,這裡不是一般的繼承關系。一般來說,子程序單獨維護從父程序 繼承下來的一些變量。而mmap()傳回的位址,卻由父子程序共同維護。
對于具有親緣關系的程序實作共享記憶體最好的方式應該是采用匿名記憶體映射的方式。此時,不必指定具體的檔案,隻要設定相應的标志即可,參見範例2。
3、系統調用munmap()
int munmap( void * addr, size_t len )
該調用在程序位址空間中解除一個映射關系,addr是調用mmap()時傳回的位址,len是映射區的大小。當映射關系解除後,對原來映射位址的通路将導緻段錯誤發生。
4、系統調用msync()
int msync ( void * addr , size_t len, int flags)
一般說來,程序在映射空間的對共享内容的改變并不直接寫回到磁盤檔案中,往往在調用munmap()後才執行該操作。可以通過調用msync()實作磁盤上檔案内容與共享記憶體區的内容一緻。
三、mmap()範例
下 面将給出使用mmap()的兩個範例:範例1給出兩個程序通過映射普通檔案實作共享記憶體通信;範例2給出父子程序通過匿名映射實作共享記憶體。系統調用 mmap()有許多有趣的地方,下面是通過mmap()映射普通檔案實作程序間的通信的範例,我們通過該範例來說明mmap()實作共享記憶體的特點及注意 事項。
範例1:兩個程序通過映射普通檔案實作共享記憶體通信
範 例1包含兩個子程式:map_normalfile1.c及map_normalfile2.c。編譯兩個程式,可執行檔案分别為 map_normalfile1及map_normalfile2。兩個程式通過指令行參數指定同一個檔案來實作共享記憶體方式的程序間通信。 map_normalfile2試圖打開指令行參數指定的一個普通檔案,把該檔案映射到程序的位址空間,并對映射後的位址空間進行寫操作。 map_normalfile1把指令行參數指定的檔案映射到程序位址空間,然後對映射後的位址空間執行讀操作。這樣,兩個程序通過指令行參數指定同一個 檔案來實作共享記憶體方式的程序間通信。
下面是兩個程式代碼:
/*-------------map_normalfile1.c-----------*/
#include
typedef struct{
char name[4];
int age;
}people;
main(int argc, char** argv) // map a normal file as shared mem:
{
int fd,i;
people *p_map;
char temp;
fd=open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,sizeof(people)*5-1,SEEK_SET);
write(fd,"",1);
p_map = (people*) mmap( NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0 );
close( fd );
temp = 'a';
for(i=0; i<10; i++)
temp += 1;
memcpy( ( *(p_map+i) ).name, &temp,2 );
( *(p_map+i) ).age = 20+i;
}
printf(" initialize over /n ");
sleep(10);
munmap( p_map, sizeof(people)*10 );
printf( "umap ok /n" );
/*-------------map_normalfile2.c-----------*/
main(int argc, char** argv) // map a normal file as shared mem:
fd=open( argv[1],O_CREAT|O_RDWR,00777 );
p_map = (people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED,fd,0);
for(i = 0;i<10;i++)
printf( "name: %s age %d;/n",(*(p_map+i)).name, (*(p_map+i)).age );
munmap( p_map,sizeof(people)*10 );
map_normalfile1.c首先定義了一個 people資料結構,(在這裡采用資料結構的方式是因為,共享記憶體區的資料往往是有固定格式的,這由通信的各個程序決定,采用結構的方式有普遍代表 性)。map_normfile1首先打開或建立一個檔案,并把檔案的長度設定為5個people結構大小。然後從mmap()的傳回位址開始,設定了 10個people結構。然後,程序睡眠10秒鐘,等待其他程序映射同一個檔案,最後解除映射。
map_normfile2.c隻是簡單的映射一個檔案,并以people資料結構的格式從mmap()傳回的位址處讀取10個people結構,并輸出讀取的值,然後解除映射。
分别把兩個程式編譯成可執行檔案map_normalfile1和map_normalfile2後,在一個終端上先運作./map_normalfile2 /tmp/test_shm,程式輸出結果如下:
initialize over
umap ok
在map_normalfile1輸出initialize over 之後,輸出umap ok之前,在另一個終端上運作map_normalfile2 /tmp/test_shm,将會産生如下輸出(為了節省空間,輸出結果為稍作整理後的結果):
name: b age 20; name: c age 21; name: d age 22; name: e age 23; name: f age 24;
name: g age 25; name: h age 26; name: I age 27; name: j age 28; name: k age 29;
在map_normalfile1 輸出umap ok後,運作map_normalfile2則輸出如下結果:
name: age 0; name: age 0; name: age 0; name: age 0; name: age 0;
從程式的運作結果中可以得出的結論
1、 最終被映射檔案的内容的長度不會超過檔案本身的初始大小,即映射不能改變檔案的大小;
2、 可以用于程序通信的有效位址空間大小大體上受限于被映射檔案的大小,但不完全受限于檔案大小。打開檔案被截短為5個people結構大小,而在 map_normalfile1中初始化了10個people資料結構,在恰當時候(map_normalfile1輸出initialize over 之後,輸出umap ok之前)調用map_normalfile2會發現map_normalfile2将輸出全部10個people結構的值,後面将給出詳細讨論。
注: 在linux中,記憶體的保護是以頁為基本機關的,即使被映射檔案隻有一個位元組大小,核心也會為映射配置設定一個頁面大小的記憶體。當被映射檔案小于一個頁面 大小時,程序可以對從mmap()傳回位址開始的一個頁面大小進行通路,而不會出錯;但是,如果對一個頁面以外的位址空間進行通路,則導緻錯誤發生,後面 将進一步描述。是以,可用于程序間通信的有效位址空間大小不會超過檔案大小及一個頁面大小的和。
3、 檔案一旦被映射後,調用mmap()的程序對傳回位址的通路是對某一記憶體區域的通路,暫時脫離了磁盤上檔案的影響。所有對mmap()傳回位址空間的操作 隻在記憶體中有意義,隻有在調用了munmap()後或者msync()時,才把記憶體中的相應内容寫回磁盤檔案,所寫内容仍然不能超過檔案的大小。
範例2:父子程序通過匿名映射實作共享記憶體
main(int argc, char** argv)
int i;
p_map=(people*)mmap(NULL,sizeof(people)*10,PROT_READ|PROT_WRITE,MAP_SHARED|MAP_ANONYMOUS,-1,0);
if(fork() == 0)
sleep(2);
for(i = 0;i<5;i++)
printf("child read: the %d people's age is %d/n",i+1,(*(p_map+i)).age);
(*p_map).age = 100;
munmap(p_map,sizeof(people)*10); //實際上,程序終止時,會自動解除映射。
exit();
memcpy((*(p_map+i)).name, &temp,2);
(*(p_map+i)).age=20+i;
sleep(5);
printf( "parent read: the first people,s age is %d/n",(*p_map).age );
printf("umap/n");
printf( "umap ok/n" );
考察程式的輸出結果,體會父子程序匿名共享記憶體:
child read: the 1 people's age is 20
child read: the 2 people's age is 21
child read: the 3 people's age is 22
child read: the 4 people's age is 23
child read: the 5 people's age is 24
parent read: the first people,s age is 100
umap
四、對mmap()傳回位址的通路
前 面對範例運作結構的讨論中已經提到,linux采用的是頁式管理機制。對于用mmap()映射普通檔案來說,程序會在自己的位址空間新增一塊空間,空間大 小由mmap()的len參數指定,注意,程序并不一定能夠對全部新增空間都能進行有效通路。程序能夠通路的有效位址大小取決于檔案被映射部分的大小。簡 單的說,能夠容納檔案被映射部分大小的最少頁面個數決定了程序從mmap()傳回的位址開始,能夠有效通路的位址空間大小。超過這個空間大小,核心會根據 超過的嚴重程度傳回發送不同的信号給程序。可用如下圖示說明:
注意:檔案被映射部分而不是整個檔案決定了程序能夠通路的空間大小,另外,如果指定檔案的偏移部分,一定要注意為頁面大小的整數倍。下面是對程序映射位址空間的通路範例:
int pagesize,offset;
pagesize = sysconf(_SC_PAGESIZE);
printf("pagesize is %d/n",pagesize);
fd = open(argv[1],O_CREAT|O_RDWR|O_TRUNC,00777);
lseek(fd,pagesize*2-100,SEEK_SET);
offset = 0; //此處offset = 0編譯成版本1;offset = pagesize編譯成版本2
p_map = (people*)mmap(NULL,pagesize*3,PROT_READ|PROT_WRITE,MAP_SHARED,fd,offset);
close(fd);
for(i = 1; i<10; i++)
(*(p_map+pagesize/sizeof(people)*i-2)).age = 100;
printf("access page %d over/n",i);
(*(p_map+pagesize/sizeof(people)*i-1)).age = 100;
printf("access page %d edge over, now begin to access page %d/n",i, i+1);
(*(p_map+pagesize/sizeof(people)*i)).age = 100;
printf("access page %d over/n",i+1);
munmap(p_map,sizeof(people)*10);
如程式中所注釋的那樣,把程式編譯成兩個版本,兩個版 本主要展現在檔案被映射部分的大小不同。檔案的大小介于一個頁面與兩個頁面之間(大小為:pagesize*2-99),版本1的被映射部分是整個檔案, 版本2的檔案被映射部分是檔案大小減去一個頁面後的剩餘部分,不到一個頁面大小(大小為:pagesize-99)。程式中試圖通路每一個頁面邊界,兩個 版本都試圖在程序空間中映射pagesize*3的位元組數。
版本1的輸出結果如下:
pagesize is 4096
access page 1 over
access page 1 edge over, now begin to access page 2
access page 2 over
access page 2 edge over, now begin to access page 3
Bus error //被映射檔案在程序空間中覆寫了兩個頁面,此時,程序試圖通路第三個頁面
版本2的輸出結果如下:
Bus error //被映射檔案在程序空間中覆寫了一個頁面,此時,程序試圖通路第二個頁面
結論:采用系統調用mmap()實作程序間通信是很友善的,在應用層上接口非常簡潔。内部實作機制區涉及到了linux存儲管理以及檔案系統等方面的内容,可以參考一下相關重要資料結構來加深了解。在本專題的後面部分,将介紹系統v共享記憶體的實作。
參考資料
[1] Understanding the Linux Kernel, 2nd Edition, By Daniel P. Bovet, Marco Cesati , 對各主題闡述得重點突出,脈絡清晰。
[2] UNIX網絡程式設計第二卷:程序間通信,作者:W.Richard Stevens,譯者:楊繼張,清華大學出版社。對mmap()有詳細闡述。
[3] Linux核心源代碼情景分析(上),毛德操、胡希明著,浙江大學出版社,給出了mmap()相關的源代碼分析。
[4]mmap()手冊
【新浪微網誌】 張昺華--sky
【twitter】 @sky2030_
【facebook】 張昺華 zhangbinghua
本文版權歸作者和部落格園共有,歡迎轉載,但未經作者同意必須保留此段聲明,且在文章頁面明顯位置給出原文連接配接,否則保留追究法律責任的權利.