<a href="http://blog.csdn.net/macrossdzh/article/details/5627274" target="_blank">http://blog.csdn.net/macrossdzh/article/details/5627274</a>
一、kmalloc函數詳解
#include <linux/slab.h> void *kmalloc(size_t size, int flags);
給 kmalloc 的第一個參數是要配置設定的塊的大小. 第 2 個參數, 配置設定标志, 非常有趣, 因為它以幾個方式控制 kmalloc 的行為.
最一般使用的标志, GFP_KERNEL, 意思是這個配置設定((内部最終通過調用 __get_free_pages 來進行, 它是 GFP_ 字首的來源) 代表運作在核心空間的程序而進行的. 換句話說, 這意味着調用函數是代表一個程序在執行一個系統調用. 使用 GFP_KENRL 意味着 kmalloc 能夠使目前程序在少記憶體的情況下睡眠來等待一頁. 一個使用 GFP_KERNEL 來配置設定記憶體的函數必須, 是以, 是可重入的并且不能在原子上下文中運作. 當目前程序睡眠, 核心采取正确的動作來定位一些空閑記憶體, 或者通過重新整理緩存到磁盤或者交換出去一個使用者程序的記憶體.
GFP_KERNEL 不一直是使用的正确配置設定标志; 有時 kmalloc 從一個程序的上下文的外部調用. 例如, 這類的調用可能發生在中斷處理, tasklet, 和核心定時器中. 在這個情況下, 目前程序不應當被置為睡眠, 并且驅動應當使用一個 GFP_ATOMIC 标志來代替. 核心正常地試圖保持一些空閑頁以便來滿足原子的配置設定. 當使用 GFP_ATOMIC 時, kmalloc 能夠使用甚至最後一個空閑頁. 如果這最後一個空閑頁不存在, 但是, 配置設定失敗.其他用來代替或者增添 GFP_KERNEL 和 GFP_ATOMIC 的标志, 盡管它們 2 個涵蓋大部分裝置驅動的需要. 所有的标志定義在 <linux/gfp.h>, 并且每個标志用一個雙下劃線做字首, 例如 __GFP_DMA. 另外, 有符号代表常常使用的标志組合; 這些缺乏字首并且有時被稱為配置設定優先級. 後者包括:
GFP_ATOMIC
用來從中斷處理和程序上下文之外的其他代碼中配置設定記憶體. 從不睡眠.
GFP_KERNEL
核心記憶體的正常配置設定. 可能睡眠.
GFP_USER
用來為使用者空間頁來配置設定記憶體; 它可能睡眠.
GFP_HIGHUSER
如同 GFP_USER, 但是從高端記憶體配置設定, 如果有. 高端記憶體在下一個子節描述.
GFP_NOIO
GFP_NOFS
這個标志功能如同 GFP_KERNEL, 但是它們增加限制到核心能做的來滿足請求. 一個 GFP_NOFS 配置設定不允許進行任何檔案系統調用, 而 GFP_NOIO 根本不允許任何 I/O 初始化. 它們主要地用在檔案系統和虛拟記憶體代碼, 那裡允許一個配置設定睡眠, 但是遞歸的檔案系統調用會是一個壞注意.
上面列出的這些配置設定标志可以是下列标志的相或來作為參數, 這些标志改變這些配置設定如何進行:
__GFP_DMA
這個标志要求配置設定在能夠 DMA 的記憶體區. 确切的含義是平台依賴的并且在下面章節來解釋.
__GFP_HIGHMEM
這個标志訓示配置設定的記憶體可以位于高端記憶體.
__GFP_COLD
正常地, 記憶體配置設定器盡力傳回"緩沖熱"的頁 -- 可能在處理器緩沖中找到的頁. 相反, 這個标志請求一個"冷"頁, 它在一段時間沒被使用. 它對配置設定頁作 DMA 讀是有用的, 此時在處理器緩沖中出現是無用的. 一個完整的對如何配置設定 DMA 緩存的讨論看"直接記憶體存取"一節在第 1 章.
__GFP_NOWARN
這個很少用到的标志阻止核心來發出警告(使用 printk ), 當一個配置設定無法滿足.
__GFP_HIGH
這個标志辨別了一個高優先級請求, 它被允許來消耗甚至被核心保留給緊急狀況的最後的記憶體頁.
__GFP_REPEAT
__GFP_NOFAIL
__GFP_NORETRY
這些标志修改配置設定器如何動作, 當它有困難滿足一個配置設定. __GFP_REPEAT 意思是" 更盡力些嘗試" 通過重複嘗試 -- 但是配置設定可能仍然失敗. __GFP_NOFAIL 标志告訴配置設定器不要失敗; 它盡最大努力來滿足要求. 使用 __GFP_NOFAIL 是強烈不推薦的; 可能從不會有有效的理由在一個裝置驅動中使用它. 最後, __GFP_NORETRY 告知配置設定器立即放棄如果得不到請求的記憶體.
kmalloc 能夠配置設定的記憶體塊的大小有一個上限. 這個限制随着體系和核心配置選項而變化. 如果你的代碼是要完全可移植, 它不能指望可以配置設定任何大于 128 KB. 如果你需要多于幾個 KB, 但是, 有個比 kmalloc 更好的方法來獲得記憶體, 我們在本章後面描述.
這方面的原因:
kmalloc并不直接從分頁機制中獲得空閑頁面而是從slab頁面配置設定器那兒獲得需要的頁面,slab的實作代碼限制了最大配置設定的大小為 128k,即131072bytes,理論上你可以通過更改slab.c中的 cache_sizes數組中的最大值使得kmalloc可以獲得更大的頁面數,不知道有沒有甚麼副效應或者沒有必要這樣做,因為擷取較大記憶體的方法有很多,想必128k是經驗總結後的合适值。
alloc_page( )可以配置設定的最大連續頁面是4M吧。MAX_ORDER =10
static inline struct page * alloc_pages(unsigned int gfp_mask, unsigned int order)
{
/*
* Gets optimized away by the compiler.
*/
if (order >= MAX_ORDER)
return NULL;
return _alloc_pages(gfp_mask, order);
}
alloc_pages最大配置設定頁面數為512個,則可用記憶體數最大為2^9*4K=2M
二、核心記憶體的知識
對于提供了MMU(存儲管理器,輔助作業系統進行記憶體管理,提供虛實位址轉換等硬體支援)的處理器而言,Linux提供了複雜的存儲管理系統,使得程序所能通路的記憶體達到4GB。
程序的4GB記憶體空間被人為的分為兩個部分--使用者空間與核心空間。使用者空間位址分布從0到3GB(PAGE_OFFSET,在0x86中它等于0xC0000000),3GB到4GB為核心空間。
核心空間中,從3G到vmalloc_start這段位址是實體記憶體映射區域(該區域中包含了核心鏡像、實體頁框表mem_map等等),比如我們使用的 VMware虛拟系統記憶體是160M,那麼3G~3G+160M這片記憶體就應該映射實體記憶體。在實體記憶體映射區之後,就是vmalloc區域。對于 160M的系統而言,vmalloc_start位置應在3G+160M附近(在實體記憶體映射區與vmalloc_start期間還存在一個8M的gap 來防止躍界),vmalloc_end的位置接近4G(最後位置系統會保留一片128k大小的區域用于專用頁面映射)kmalloc和get_free_page申請的記憶體位于實體記憶體映射區域,而且在實體上也是連續的,它們與真實的實體位址隻有一個固定的偏移,是以存在較簡單的轉換關系,virt_to_phys()可以實作核心虛拟位址轉化為實體位址:
#define __pa(x) ((unsigned long)(x)-PAGE_OFFSET)
extern inline unsigned long virt_to_phys(volatile void * address)
return __pa(address);
上面轉換過程是将虛拟位址減去3G(PAGE_OFFSET=0XC000000)。
與之對應的函數為phys_to_virt(),将核心實體位址轉化為虛拟位址:
#define __va(x) ((void *)((unsigned long)(x)+PAGE_OFFSET))
extern inline void * phys_to_virt(unsigned long address)
return __va(address);
virt_to_phys()和phys_to_virt()都定義在include/asm-i386/io.h中。
而vmalloc申請的記憶體則位于vmalloc_start~vmalloc_end之間,與實體位址沒有簡單的轉換關系,雖然在邏輯上它們也是連續的,但是在實體上它們不要求連續。
我們用下面的程式來示範kmalloc、get_free_page和vmalloc的差別:
#include <linux/module.h>
#include <linux/slab.h>
#include <linux/vmalloc.h>
MODULE_LICENSE("GPL");
unsigned char *pagemem;
unsigned char *kmallocmem;
unsigned char *vmallocmem;
int __init mem_module_init(void)
{
//最好每次記憶體申請都檢查申請是否成功
//下面這段僅僅作為示範的代碼沒有檢查
pagemem = (unsigned char*)get_free_page(0);
printk("<1>pagemem addr=%x", pagemem);
kmallocmem = (unsigned char*)kmalloc(100, 0);
printk("<1>kmallocmem addr=%x", kmallocmem);
vmallocmem = (unsigned char*)vmalloc(1000000);
printk("<1>vmallocmem addr=%x", vmallocmem);
return 0;
}
void __exit mem_module_exit(void)
free_page(pagemem);
kfree(kmallocmem);
vfree(vmallocmem);
module_init(mem_module_init);
module_exit(mem_module_exit);
我們的系統上有160MB的記憶體空間,運作一次上述程式,發現pagemem的位址在0xc7997000(約3G+121M)、kmallocmem 位址在0xc9bc1380(約3G+155M)、vmallocmem的位址在0xcabeb000(約3G+171M)處,符合前文所述的記憶體布局。
參考:
1、http://blog.chinaunix.net/u/19782/showart_282318.html
2、http://blog.chinaunix.net/u2/79914/showart_1905549.html