sizeof詳解【包含sizeof(string)】

關于sizeof(string)，今天看那本面試寶典的時候看到這個表達式，有點吃驚，書上寫着sizeof(string)=4;當時很納悶，難道配置設定4個位元組大小的記憶體給string嗎？查閱了相關資料得出結論：string的實作在各庫中可能有所不同，但是在同一庫中相同一點是，無論你的string裡放多長的字元串，它的sizeof()都是固定的，字元串所占的空間是從堆中動态配置設定的，與sizeof()無關。

sizeof(string)=4可能是最典型的實作之一，不過也有sizeof()為12、32位元組的庫實作。但是VC6.0測試後sizeof(string)=16.還是跟編譯器有關

#include<iostream>

using namespace std;

void main(void)

{

string a[] = {"aaaaa","bbbb","ccc"};

int x = sizeof(a);

int y = sizeof(string);

cout << x << endl;

cout << y << endl;

}

運作結果：

關于sizeof更多的用法摘自：http://hi.baidu.com/haijiaoshu/blog/item/a269f527706b910a908f9d5b.html

1、什麼是sizeof

首先看一下sizeof在msdn上的定義：

The sizeof keyword gives the amount of storage, in bytes, associated with a variable or a type (including aggregate types). This keyword returns a value of type size_t.

看到return這個字眼，是不是想到了函數？錯了，sizeof不是一個函數，你見過給一個函數傳參數，而不加括号的嗎？sizeof可以，是以sizeof不是函數。網上有人說sizeof是一進制操作符，但是我并不這麼認為，因為sizeof更像一個特殊的宏，它是在編譯階段求值的。舉個例子：

cout<<sizeof(int)<<endl; // 32位機上int長度為4

cout<<sizeof(1==2)<<endl; // == 操作符傳回bool類型，相當于 cout<<sizeof(bool)<<endl;

在編譯階段已經被翻譯為：

cout<<4<<endl;

cout<<1<<endl;

這裡有個陷阱，看下面的程式：

int a = 0;

cout<<sizeof(a=3)<<endl;

cout<<a<<endl;

輸出為什麼是4，0而不是期望中的4，3？？？就在于sizeof在編譯階段處理的特性。由于sizeof不能被編譯成機器碼，是以sizeof作用範圍内，也就是()裡面的内容也不能被編譯，而是被替換成類型。=操作符傳回左操作數的類型，是以a=3相當于int，而代碼也被替換為：

int a = 0;

cout<<4<<endl;

cout<<a<<endl;

是以，sizeof是不可能支援鍊式表達式的，這也是和一進制操作符不一樣的地方。

結論：不要把sizeof當成函數，也不要看作一進制操作符，把他當成一個特殊的編譯預處理。

2、sizeof的用法

sizeof有兩種用法：

（1）sizeof(object)

也就是對對象使用sizeof，也可以寫成sizeof object 的形式。例如：

（2）sizeof(typename)

也就是對類型使用sizeof，注意這種情況下寫成sizeof typename是非法的。下面舉幾個例子說明一下：

int i = 2;

cout<<sizeof(i)<<endl; // sizeof(object)的用法，合理

cout<<sizeof i<<endl; // sizeof object的用法，合理

cout<<sizeof 2<<endl; // 2被解析成int類型的object, sizeof object的用法，合理

cout<<sizeof(2)<<endl; // 2被解析成int類型的object, sizeof(object)的用法，合理

cout<<sizeof(int)<<endl;// sizeof(typename)的用法，合理

cout<<sizeof int<<endl; // 錯誤！對于操作符，一定要加()

可以看出，加()是永遠正确的選擇。

結論：不論sizeof要對誰取值，最好都加上()。

3、資料類型的sizeof

（1）C++固有資料類型

32位C++中的基本資料類型，也就char,short int(short),int,long int(long),float,double, long double

大小分别是：1，2，4，4，4，8, 10。

考慮下面的代碼：

cout<<sizeof(unsigned int) == sizeof(int)<<endl; // 相等，輸出 1

unsigned影響的隻是最高位bit的意義，資料長度不會被改變的。

結論：unsigned不能影響sizeof的取值。

（2）自定義資料類型

typedef可以用來定義C++自定義類型。考慮下面的問題：

typedef short WORD;

typedef long DWORD;

cout<<(sizeof(short) == sizeof(WORD))<<endl; // 相等，輸出1

cout<<(sizeof(long) == sizeof(DWORD))<<endl; // 相等，輸出1

結論：自定義類型的sizeof取值等同于它的類型原形。

（3）函數類型

考慮下面的問題：

int f1(){return 0;};

double f2(){return 0.0;}

void f3(){}

cout<<sizeof(f1())<<endl; // f1()傳回值為int，是以被認為是int

cout<<sizeof(f2())<<endl; // f2()傳回值為double，是以被認為是double

cout<<sizeof(f3())<<endl; // 錯誤！無法對void類型使用sizeof

cout<<sizeof(f1)<<endl; // 錯誤！無法對函數指針使用sizeof

cout<<sizeof*f2<<endl; // *f2，和f2()等價，因為可以看作object，是以括号不是必要的。被認為是double

結論：對函數使用sizeof，在編譯階段會被函數傳回值的類型取代，

4、指針問題

考慮下面問題：

cout<<sizeof(string*)<<endl; // 4

cout<<sizeof(int*)<<endl; // 4

cout<<sizof(char****)<<endl; // 4

可以看到，不管是什麼類型的指針，大小都是4的，因為指針就是32位的實體位址。

結論：隻要是指針，大小就是4。（64位機上要變成8也不一定）。

順便唧唧歪歪幾句，C++中的指針表示實際記憶體的位址。和C不一樣的是，C++中取消了模式之分，也就是不再有small,middle,big,取而代之的是統一的flat。flat模式采用32位實位址尋址，而不再是c中的 segment:offset模式。舉個例子，假如有一個指向位址 f000:8888的指針，如果是C類型則是8888(16位, 隻存儲位移，省略段)，far類型的C指針是f0008888(32位，高位保留段位址，地位保留位移),C++類型的指針是f8888(32位，相當于段位址*16 + 位移，但尋址範圍要更大)。

5、數組問題

考慮下面問題：

char a[] = "abcdef";

int b[20] = {3, 4};

char c[2][3] = {"aa", "bb"};

cout<<sizeof(a)<<endl; // 7

cout<<sizeof(b)<<endl; // 20*4=80

cout<<sizeof(c)<<endl; // 6

數組a的大小在定義時未指定，編譯時給它配置設定的空間是按照初始化的值确定的，也就是7。c是多元數組，占用的空間大小是各維數的乘積，也就是6。可以看出，數組的大小就是他在編譯時被配置設定的空間，也就是各維數的乘積*數組元素的大小。

結論：數組的大小是各維數的乘積*數組元素的大小。

這裡有一個陷阱：

int *d = new int[10];

cout<<sizeof(d)<<endl; // 4

d是我們常說的動态數組，但是他實質上還是一個指針，是以sizeof(d)的值是4。

再考慮下面的問題：

double* (*a)[3][6];

cout<<sizeof(a)<<endl; // 4

cout<<sizeof(*a)<<endl; // 72

cout<<sizeof(**a)<<endl; // 24

cout<<sizeof(***a)<<endl; // 4

cout<<sizeof(****a)<<endl; // 8

a是一個很奇怪的定義，他表示一個指向 double*[3][6]類型數組的指針。既然是指針，是以sizeof(a)就是4。

既然a是執行double*[3][6]類型的指針，*a就表示一個double*[3][6]的多元數組類型，是以sizeof(*a)=3*6*sizeof(double*)=72。同樣的，**a表示一個double*[6]類型的數組，是以sizeof(**a)=6*sizeof(double*)=24。***a就表示其中的一個元素，也就是double*了，是以sizeof(***a)=4。至于****a，就是一個double了，是以sizeof(****a)=sizeof(double)=8。

6、向函數傳遞數組的問題。

考慮下面的問題：

#include <iostream>

using namespace std;

int Sum(int i[])

{

int sumofi = 0;

for (int j = 0; j < sizeof(i)/sizeof(int); j++) //實際上，sizeof(i) = 4

{

sumofi += i[j];

}

return sumofi;

}

int main()

{

int allAges[6] = {21, 22, 22, 19, 34, 12};

cout<<Sum(allAges)<<endl;

system("pause");

return 0;

}

Sum的本意是用sizeof得到數組的大小，然後求和。但是實際上，傳入自函數Sum的，隻是一個int 類型的指針，是以sizeof(i)=4，而不是24，是以會産生錯誤的結果。解決這個問題的方法使是用指針或者引用。

使用指針的情況：

int Sum(int (*i)[6])

{

int sumofi = 0;

for (int j = 0; j < sizeof(*i)/sizeof(int); j++) //sizeof(*i) = 24

{

sumofi += (*i)[j];

}

return sumofi;

}

int main()

{

int allAges[] = {21, 22, 22, 19, 34, 12};

cout<<Sum(&allAges)<<endl;

system("pause");

return 0;

}

在這個Sum裡，i是一個指向i[6]類型的指針，注意，這裡不能用int Sum(int (*i)[])聲明函數，而是必須指明要傳入的數組的大小，不然sizeof(*i)無法計算。但是在這種情況下，再通過sizeof來計算數組大小已經沒有意義了，因為此時大小是指定為6的。

使用引用的情況和指針相似：

int Sum(int (&i)[6])

{

int sumofi = 0;

for (int j = 0; j < sizeof(i)/sizeof(int); j++)

{

sumofi += i[j];

}

return sumofi;

}

int main()

{

int allAges[] = {21, 22, 22, 19, 34, 12};

cout<<Sum(allAges)<<endl;

system("pause");

return 0;

}

這種情況下sizeof的計算同樣無意義，是以用數組做參數，而且需要周遊的時候，函數應該有一個參數來說明數組的大小，而數組的大小在數組定義的作用域内通過sizeof求值。是以上面的函數正确形式應該是：

#include <iostream>

using namespace std;

int Sum(int *i, unsigned int n)

{

int sumofi = 0;

for (int j = 0; j < n; j++)

{

sumofi += i[j];

}

return sumofi;

}

int main()

{

int allAges[] = {21, 22, 22, 19, 34, 12};

cout<<Sum(i, sizeof(allAges)/sizeof(int))<<endl;

system("pause");

return 0;

}

7、字元串的sizeof和strlen

考慮下面的問題：

char a[] = "abcdef";

char b[20] = "abcdef";

string s = "abcdef";

cout<<strlen(a)<<endl; // 6，字元串長度

cout<<sizeof(a)<<endl; // 7，字元串容量

cout<<strlen(b)<<endl; // 6，字元串長度

cout<<sizeof(b)<<endl; // 20，字元串容量

cout<<sizeof(s)<<endl; // 12, 這裡不代表字元串的長度，而是string類的大小

cout<<strlen(s)<<endl; // 錯誤！s不是一個字元指針。

a[1] = '\0';

cout<<strlen(a)<<endl; // 1

cout<<sizeof(a)<<endl; // 7，sizeof是恒定的

strlen是尋找從指定位址開始，到出現的第一個0之間的字元個數，他是在運作階段執行的，而sizeof是得到資料的大小，在這裡是得到字元串的容量。是以對同一個對象而言，sizeof的值是恒定的。string是C++類型的字元串，他是一個類，是以sizeof(s)表示的并不是字元串的長度，而是類string的大小。strlen(s)根本就是錯誤的，因為strlen的參數是一個字元指針，如果想用strlen得到s字元串的長度，應該使用sizeof(s.c_str())，因為string的成員函數c_str()傳回的是字元串的首位址。實際上，string類提供了自己的成員函數來得到字元串的容量和長度，分别是Capacity()和Length()。string封裝了常用了字元串操作，是以在C++開發過程中，最好使用string代替C類型的字元串。

8、從union的sizeof問題看cpu的對界

考慮下面問題：（預設對齊方式）

union u

{

double a;

int b;

};

union u2

{

char a[13];

int b;

};

union u3

{

char a[13];

char b;

};

cout<<sizeof(u)<<endl; // 8

cout<<sizeof(u2)<<endl; // 16

cout<<sizeof(u3)<<endl; // 13

都知道union的大小取決于它所有的成員中，占用空間最大的一個成員的大小。是以對于u來說，大小就是最大的double類型成員a了，是以sizeof(u)=sizeof(double)=8。但是對于u2和u3，最大的空間都是char[13]類型的數組，為什麼u3的大小是13，而u2是16呢？關鍵在于u2中的成員int b。由于int類型成員的存在，使u2的對齊方式變成4，也就是說，u2的大小必須在4的對界上，是以占用的空間變成了16（最接近13的對界）。

結論：複合資料類型，如union，struct，class的對齊方式為成員中對齊方式最大的成員的對齊方式。

順便提一下CPU對界問題，32的C++采用8位對界來提高運作速度，是以編譯器會盡量把資料放在它的對界上以提高記憶體命中率。對界是可以更改的，使用#pragma pack(x)宏可以改變編譯器的對界方式，預設是8。C++固有類型的對界取編譯器對界方式與自身大小中較小的一個。例如，指定編譯器按2對界，int類型的大小是4，則int的對界為2和4中較小的2。在預設的對界方式下，因為幾乎所有的資料類型都不大于預設的對界方式8（除了long double），是以所有的固有類型的對界方式可以認為就是類型自身的大小。更改一下上面的程式：

#pragma pack(2)

union u2

{

char a[13];

int b;

};

union u3

{

char a[13];

char b;

};

#pragma pack(8)

cout<<sizeof(u2)<<endl; // 14

cout<<sizeof(u3)<<endl; // 13

由于手動更改對界方式為2，是以int的對界也變成了2，u2的對界取成員中最大的對界，也是2了，是以此時sizeof(u2)=14。

結論：C++固有類型的對界取編譯器對界方式與自身大小中較小的一個。

9、struct的sizeof問題

因為對齊問題使結構體的sizeof變得比較複雜，看下面的例子：(預設對齊方式下)

struct s1

{

char a;

double b;

int c;

char d;

};

struct s2

{

char a;

char b;

int c;

double d;

};

cout<<sizeof(s1)<<endl; // 24

cout<<sizeof(s2)<<endl; // 16

同樣是兩個char類型，一個int類型，一個double類型，但是因為對界問題，導緻他們的大小不同。計算結構體大小可以采用元素擺放法，我舉例子說明一下：首先，CPU判斷結構體的對界，根據上一節的結論，s1和s2的對界都取最大的元素類型，也就是double類型的對界8。然後開始擺放每個元素。

對于s1，首先把a放到8的對界，假定是0，此時下一個空閑的位址是1，但是下一個元素d是double類型，要放到8的對界上，離1最接近的位址是8了，是以d被放在了8，此時下一個空閑位址變成了16，下一個元素c的對界是4，16可以滿足，是以c放在了16，此時下一個空閑位址變成了20，下一個元素d需要對界1，也正好落在對界上，是以d放在了20，結構體在位址21處結束。由于s1的大小需要是8的倍數，是以21-23的空間被保留，s1的大小變成了24。

對于s2，首先把a放到8的對界，假定是0，此時下一個空閑位址是1，下一個元素的對界也是1，是以b擺放在1，下一個空閑位址變成了2；下一個元素c的對界是4，是以取離2最近的位址4擺放c，下一個空閑位址變成了8，下一個元素d的對界是8，是以d擺放在8，所有元素擺放完畢，結構體在15處結束，占用總空間為16，正好是8的倍數。

這裡有個陷阱，對于結構體中的結構體成員，不要認為它的對齊方式就是他的大小，看下面的例子：

struct s1

{

char a[8];

};

struct s2

{

double d;

};

struct s3

{

s1 s;

char a;

};

struct s4

{

s2 s;

char a;

};

cout<<sizeof(s1)<<endl; // 8

cout<<sizeof(s2)<<endl; // 8

cout<<sizeof(s3)<<endl; // 9

cout<<sizeof(s4)<<endl; // 16;

s1和s2大小雖然都是8，但是s1的對齊方式是1，s2是8（double），是以在s3和s4中才有這樣的差異。

是以，在自己定義結構體的時候，如果空間緊張的話，最好考慮對齊因素來排列結構體裡的元素。

10、不要讓double幹擾你的位域

在結構體和類中，可以使用位域來規定某個成員所能占用的空間，是以使用位域能在一定程度上節省結構體占用的空間。不過考慮下面的代碼：

struct s1

{

int i: 8;

int j: 4;

double b;

int a:3;

};

struct s2

{

int i;

int j;

double b;

int a;

};

struct s3

{

int i;

int j;

int a;

double b;

};

struct s4

{

int i: 8;

int j: 4;

int a:3;

double b;

};

cout<<sizeof(s1)<<endl; // 24

cout<<sizeof(s2)<<endl; // 24

cout<<sizeof(s3)<<endl; // 24

cout<<sizeof(s4)<<endl; // 16

可以看到，有double存在會幹涉到位域（sizeof的算法參考上一節），是以使用位域的的時候，最好把float類型和double類型放在程式的開始或者最後。

sizeof詳解【包含sizeof(string)】

繼續閱讀

BMP檔案結構及圖像每行位元組計算方法

linux網絡程式設計----發送與接收檔案

c寫檔案

對于0-1分數規劃的Dinkelbach算法的分析

處理PCX檔案

不用iconv函數實作UTF-8編碼轉換GB2312的PHP函數

什麼是BNF範式

浮點數計算精度控制

C#多線程——前台線程和背景線程

QName是什麼

Android – ListView 中添加按鈕，動态删除添加ItemView的操作

C++ 第十五周報告1--《冒泡法排序》

[轉]九大排序算法——C語言實作及詳解

QR碼編碼原理三（日本漢字和中文編碼）

GridView終極用法(一)

Linux裝置模型（中）之上層容器