<pre name="code" class="cpp" style="color: rgb(51, 51, 51); white-space: pre-wrap; word-wrap: break-word;"><strong>一、 從printf()開始</strong>
從大家都很熟悉的格式化字元串函數開始介紹可變參數函數。
原型:int printf(const char * format, ...);
參數format表示如何來格式字元串的指令,…
表示可選參數,調用時傳遞給"..."的參數可有可無,根據實際情況而定。
系統提供了vprintf系列格式化字元串的函數,用于程式設計人員封裝自己的I/O函數。
int vprintf / vscanf(const char * format, va_list ap); // 從标準輸入/輸出格式化字元串
int vfprintf / vfsacanf(FILE * stream, const char * format, va_list ap); // 從檔案流
int vsprintf / vsscanf(char * s, const char * format, va_list ap); // 從字元串
// 例1:格式化到一個檔案流,可用于日志檔案
FILE *logfile;
int <strong><span style="color:#ff0000;">WriteLog</span></strong>(<strong>const char * format, ...</strong>) //<strong>int i,...</strong>
{
va_list arg_ptr; //第一步:定義這個指向參數清單的變量
va_start(arg_ptr, format);//第二步:把上面這個變量初始化,即讓它指向參數清單
int nWrittenBytes = vfprintf(logfile, format, arg_ptr);
va_end(arg_ptr);//第四步:做一些清理工作
return nWrittenBytes;
}
…
// 調用時,與使用printf()沒有差別。
<strong><span style="color:#ff0000;">WriteLog</span></strong>("%04d-%02d-%02d %02d:%02d:%02d %s/%04d logged out.",nYear, nMonth, nDay, nHour, nMinute, szUserName, nUserID);
同理,也可以從檔案中執行格式化輸入;或者對标準輸入輸出,字元串執行格式化。
在上面的例1中,WriteLog()函數可以接受參數個數可變的輸入,本質上,它的實作需要vprintf()的支援。如何真正實作屬于自己的可變參數函數,包括控制每一個傳入的可選參數。
二、 va函數的定義和va宏
C語言支援va函數,作為C語言的擴充--C++同樣支援va函數,但在C++中并不推薦使用,C++引入的多态性同樣可以實作參數個數可變的函數。不 過,C++的重載功能畢竟隻能是有限多個可以預見的參數個數。比較而言,C中的va函數則可以定義無窮多個相當于C++的重載函數,這方面C++是無能為 力的。va函數的優勢表現在使用的友善性和易用性上,可以使代碼更簡潔。C編譯器為了統一在不同的硬體架構、硬體平台上的實作,和增加代碼的可移植性,提 供了一系列宏來屏蔽硬體環境不同帶來的差異。
ANSI C标準下,va的宏定義在stdarg.h中,它們有:va_list,va_start(),va_arg(),va_end()。
// 例2:求任意個自然數的平方和:
int SqSum(int n1, ...)
{
<strong>va_list </strong>arg_ptr;
int nSqSum = 0, n = n1;
va_start(arg_ptr, n1);
while (n > 0)
{
nSqSum += (n * n);
n = va_arg(arg_ptr, int);
}
va_end(arg_ptr);
return nSqSum;
}
// 調用時
int nSqSum = SqSum(7, 2, 7, 11, -1);
可變參數函數的原型聲明格式為:
type VAFunction(type arg1, type arg2, … );
參數可以分為兩部分:個數确定的固定參數和個數可變的可選參數。函數至少需要一個固定參數,固定參數的聲明和普通函數一樣;可選參數由于個數不确定,聲明時用"…"表示。固定參數和可選參數公同構成一個函數的參數清單。
借助上面這個簡單的例2,來看看各個va_xxx的作用。
va_list arg_ptr:定義一個指向個數可變的參數清單指針;
va_start(arg_ptr, argN):使參數清單指針arg_ptr指向函數參數清單中的第一個可選參數,說明:argN是位于第一個可選參數之前的固定參數,(或者說,最後一個 固定參數;…之前的一個參數),函數參數清單中參數在記憶體中的順序與函數聲明時的順序是一緻的。如果有一va函數的聲明是void va_test(char a, char b, char c, …),則它的固定參數依次是a,b,c,最後一個固定參數argN為c,是以就是va_start(arg_ptr, c)。
va_arg(arg_ptr, type):傳回參數清單中指針arg_ptr所指的參數,傳回類型為type,并使指針arg_ptr指向參數清單中下一個參數。
va_copy(dest, src):dest,src的類型都是va_list,va_copy()用于複制參數清單指針,将dest初始化為src。
va_end(arg_ptr):清空參數清單,并置參數指針arg_ptr無效。說明:指針arg_ptr被置無效後,可以通過調用 va_start()、va_copy()恢複arg_ptr。每次調用va_start() / va_copy()後,必須得有相應的va_end()與之比對。參數指針可以在參數清單中随意地來回移動,但必須在va_start() … va_end()之内。
三、 編譯器如何實作va
例2中調用SqSum(7, 2, 7, 11, -1)來求7, 2, 7, 11的平方和,-1是結束标志。
簡單地說,va函數的實作就是對參數指針的使用和控制。
typedef char * va_list; // x86平台下va_list的定義
函數的固定參數部分,可以直接從函數定義時的參數名獲得;對于可選參數部分,先将指針指向第一個可選參數,然後依次後移指針,根據與結束标志的比較來判斷是否已經獲得全部參數。是以,va函數中結束标志必須事先約定好,否則,指針會指向無效的記憶體位址,導緻出錯。
這裡,移動指針使其指向下一個參數,那麼移動指針時的偏移量是多少呢,沒有具體答案,因為這裡涉及到記憶體對齊(alignment)問題,記憶體對齊跟具體 使用的硬體平台有密切關系,比如大家熟知的32位x86平台規定所有的變量位址必須是4的倍數(sizeof(int) = 4)。va機制中用宏_INTSIZEOF(n)來解決這個問題,沒有這些宏,va的可移植性無從談起。
首先介紹宏_INTSIZEOF(n),它求出變量占用記憶體空間的大小,是va的實作的基礎。
#define _INTSIZEOF(n) ((sizeof(n)+sizeof(int)-1)&~(sizeof(int) - 1) )
#define va_start(ap,v) ( ap = (va_list)&v + _INTSIZEOF(v) ) //第一個可選參數位址
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數位址
#define va_end(ap) ( ap = (va_list)0 ) // 将指針置為無效
下表是針對函數int TestFunc(int n1, int n2, int n3, …) 參數傳遞時的記憶體堆棧情況。(C編譯器預設的參數傳遞方式是__cdecl。)
對該函數的調用為int result = TestFunc(a, b, c, d. e); 其中e為結束标志。

從上圖中可以很清楚地看出va_xxx宏如此編寫的原因。
1. va_start。為了得到第一個可選參數的位址,我們有三種辦法可以做到:
A) = &n3 + _INTSIZEOF(n3)
// 最後一個固定參數的位址 + 該參數占用記憶體的大小
B) = &n2 + _INTSIZEOF(n3) + _INTSIZEOF(n2)
// 中間某個固定參數的位址 + 該參數之後所有固定參數占用的記憶體大小之和
C) = &n1 + _INTSIZEOF(n3) + _INTSIZEOF(n2) + _INTSIZEOF(n1)
// 第一個固定參數的位址 + 所有固定參數占用的記憶體大小之和
從編譯器實作角度來看,方法B),方法C)為了求出位址,編譯器還需知道有多少個固定參數,以及它們的大小,沒有把問題分解到最簡單,是以不是很聰明的途 徑,不予采納;相對來說,方法A)中運算的兩個值則完全可以确定。va_start()正是采用A)方法,接受最後一個固定參數。調用 va_start()的結果總是使指針指向下一個參數的位址,并把它作為第一個可選參數。在含多個固定參數的函數中,調用va_start()時,如果不 是用最後一個固定參數,對于編譯器來說,可選參數的個數已經增加,将給程式帶來一些意想不到的錯誤。(當然如果你認為自己對指針已經知根知底,遊刃有餘, 那麼,怎麼用就随你,你甚至可以用它完成一些很優秀(高效)的代碼,但是,這樣會大大降低代碼的可讀性。)
注意:宏va_start是對參數的位址進行操作的,要求參數位址必須是有效的。一些位址無效的類型不能當作固定參數類型。比如:寄存器類型,它的位址不是有效的記憶體位址值;數組和函數也不允許,他們的長度是個問題。是以,這些類型時不能作為va函數的參數的。
2. va_arg身兼二職:傳回目前參數,并使參數指針指向下一個參數。
初看va_arg宏定義很别扭,如果把它拆成兩個語句,可以很清楚地看出它完成的兩個職責。
#define va_arg(ap,t) ( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) ) //下一個參數位址
// 将( *(t *)((ap += _INTSIZEOF(t)) - _INTSIZEOF(t)) )拆成:
1. ap += _INTSIZEOF(t); // 目前,ap已經指向下一個參數了
2. return *(t *)( ap - _INTSIZEOF(t))
回想到printf/scanf系列函數的%d %s之類的格式化指令,我們不難了解這些它們的用途了- 明示參數強制轉換的類型。
(注:printf/scanf沒有使用va_xxx來實作,但原理是一緻的。)
3.va_end很簡單,僅僅是把指針廢棄而已。
#define va_end(ap) (ap = (va_list)0) // x86平台
四、 簡潔、靈活,也有危險
從va的實作可以看出,指針的合理運用,把C語言簡潔、靈活的特性表現得淋漓盡緻,叫人不得不佩服C的強大和高效。不可否認的是,給程式設計人員太多自由空間必然使程式的安全性降低。va中,為了得到所有傳遞給函數的參數,需要用va_arg依次周遊。其中存在兩個隐患:
1)如何确定參數的類型。 va_arg在類型檢查方面與其說非常靈活,不如說是很不負責,因為是強制類型轉換,va_arg都把目前指針所指向的内容強制轉換到指定類型;
2)結束标志。如果沒有結束标志的判斷,va将按預設類型依次傳回記憶體中的内容,直到通路到非法記憶體而出錯退出。例2中SqSum()求的是自然數的平方 和,是以我把負數和0作為它的結束标志。例如scanf把接收到的回車符作為結束标志,大家熟知的printf()對字元串的處理用'\0'作為結束标 志,無法想象C中的字元串如果沒有'\0', 代碼将會是怎樣一番情景,估計那時最流行的可能是字元數組,或者是malloc/free。
允許對記憶體的随意通路,會留給不懷好意者留下攻擊的可能。當處理cracker精心設計好的一串字元串後,程式将跳轉到一些惡意代碼區域執行,以使cracker達到其攻擊目的。(常見的exploit攻擊)是以,必需禁止對記憶體的随意通路和嚴格控制記憶體通路邊界。
五、 Unix System V相容方式的va聲明
上面介紹可變參數函數的聲明是采用ANSI标準的,Unix System V相容方式的聲明有一點點差別,它增加了兩個宏:va_alist,va_dcl。而且它們不是定義在stdarg.h中,而是varargs.h中。 stdarg.h是ANSI标準的;varargs.h僅僅是為了能與以前的程式保持相容而出現的,現在的程式設計中不推薦使用。
va_alist:函數聲明/定義時出現在函數頭,用以接受參數清單。
va_dcl:對va_alist的聲明,其後無需跟分号";"
va_start的定義也不相同。因為System V可變參數函數聲明不區分固定參數和可選參數,直接對參數清單操作。是以va_start()不是va_start(ap,v),而是簡化為va_start(ap)。其中,ap是va_list型的參數指針。
Unix System V相容方式下函數的聲明形式:
type VAFunction(va_alist)
va_dcl // 這裡無需分号
{
// 函數體内同ANSI标準
}
// 例3:猜測execl的實作(Unix System V相容方式),摘自SUS V2
#include
#define MAXARGS 100
/ * execl(file, arg1, arg2, ..., (char *)0); */
execl(va_alist)
va_dcl
{
va_list ap;
char *file;
char *args[MAXARGS];
int argno = 0;
va_start(ap);
file = va_arg(ap, char *);
while ((args[argno++] = va_arg(ap, char *)) != (char *)0)
;
va_end(ap);
return execv(file, args);
}