位域相關知識

有些資料在存儲時并不需要占用一個完整的位元組，隻需要占用一個或幾個二進制位即可。例如開關隻有通電和斷電兩種狀态，用 0 和 1 表示足以，也就是用一個二進位。正是基于這種考慮，C語言又提供了一種叫做位域的資料結構。

原文寫的很好，是以收藏在這，免得無了，原位址：C語言位域（位段）詳解

在結構體定義時，我們可以指定某個成員變量所占用的二進制位數（Bit），這就是位域。請看下面的例子：

struct bs{
    unsigned m;
    unsigned n: 4;
    unsigned char ch: 6;
};

:後面的數字用來限定成員變量占用的位數。成員 m 沒有限制，根據資料類型即可推算出它占用 4 個位元組（Byte）的記憶體。成員 n、ch 被:後面的數字限制，不能再根據資料類型計算長度，它們分别占用 4、6 位（Bit）的記憶體。

n、ch 的取值範圍非常有限，資料稍微大些就會發生溢出，請看下面的例子：

#include <stdio.h>
int main(){
    struct bs{
        unsigned m;
        unsigned n: 4;
        unsigned char ch: 6;
    } a = { 0xad, 0xE, '$'};
    //第一次輸出
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);
    //更改值後再次輸出
    a.m = 0xb8901c;
    a.n = 0x2d;
    a.ch = 'z';
    printf("%#x, %#x, %c\n", a.m, a.n, a.ch);
    return 0;
}

運作結果：

0xad, 0xe, $

0xb8901c, 0xd, :

對于 n 和 ch，第一次輸出的資料是完整的，第二次輸出的資料是殘缺的。

第一次輸出時，n、ch 的值分别是 0xE、0x24（'$' 對應的 ASCII 碼為 0x24），換算成二進制是 1110、10 0100，都沒有超出限定的位數，能夠正常輸出。

第二次輸出時，n、ch 的值變為 0x2d、0x7a（'z' 對應的 ASCII 碼為 0x7a），換算成二進制分别是 10 1101、111 1010，都超出了限定的位數。超出部分被直接截去，剩下 1101、11 1010，換算成十六進制為 0xd、0x3a（0x3a 對應的字元是 :）。

C語言标準規定，位域的寬度不能超過它所依附的資料類型的長度。通俗地講，成員變量都是有類型的，這個類型限制了成員變量的最大長度，:後面的數字不能超過這個長度。

例如上面的 bs，n 的類型是 unsigned int，長度為 4 個位元組，共計 32 位，那麼 n 後面的數字就不能超過 32；ch 的類型是 unsigned char，長度為 1 個位元組，共計 8 位，那麼 ch 後面的數字就不能超過 8。

我們可以這樣認為，位域技術就是在成員變量所占用的記憶體中選出一部分位寬來存儲資料。

C語言标準還規定，隻有有限的幾種資料類型可以用于位域。在 ANSI C 中，這幾種資料類型是 int、signed int 和 unsigned int（int 預設就是 signed int）；到了 C99，_Bool 也被支援了。

關于C語言标準以及 ANSI C 和 C99 的差別，我們已在付費教程《C語言的三套标準：C89、C99和C11》中進行了講解。

但編譯器在具體實作時都進行了擴充，額外支援了 char、signed char、unsigned char 以及 enum 類型，是以上面的代碼雖然不符合C語言标準，但它依然能夠被編譯器支援。

位域的存儲

C語言标準并沒有規定位域的具體存儲方式，不同的編譯器有不同的實作，但它們都盡量壓縮存儲空間。

位域的具體存儲規則如下：

1) 當相鄰成員的類型相同時，如果它們的位寬之和小于類型的 sizeof 大小，那麼後面的成員緊鄰前一個成員存儲，直到不能容納為止；如果它們的位寬之和大于類型的 sizeof 大小，那麼後面的成員将從新的存儲單元開始，其偏移量為類型大小的整數倍。

以下面的位域 bs 為例：

#include <stdio.h>
int main(){
    struct bs{
        unsigned m: 6;
        unsigned n: 12;
        unsigned p: 4;
    };
    printf("%d\n", sizeof(struct bs));
    return 0;
}

運作結果：

m、n、p 的類型都是 unsigned int，sizeof 的結果為 4 個位元組（Byte），也即 32 個位（Bit）。m、n、p 的位寬之和為 6+12+4 = 22，小于 32，是以它們會挨着存儲，中間沒有縫隙。

sizeof(struct bs) 的大小之是以為 4，而不是 3，是因為要将記憶體對齊到 4 個位元組，以便提高存取效率，這将在《C語言記憶體精講》專題的《C語言記憶體對齊，提高尋址效率》一節中詳細講解。

如果将成員 m 的位寬改為 22，那麼輸出結果将會是 8，因為 22+12 = 34，大于 32，n 會從新的位置開始存儲，相對 m 的偏移量是 sizeof(unsigned int)，也即 4 個位元組。

如果再将成員 p 的位寬也改為 22，那麼輸出結果将會是 12，三個成員都不會挨着存儲。

2) 當相鄰成員的類型不同時，不同的編譯器有不同的實作方案，GCC 會壓縮存儲，而 VC/VS 不會。

請看下面的位域 bs：

#include <stdio.h>
int main(){
    struct bs{
        unsigned m: 12;
        unsigned char ch: 4;
        unsigned p: 4;
    };
    printf("%d\n", sizeof(struct bs));
    return 0;
}

在 GCC 下的運作結果為 4，三個成員挨着存儲；在 VC/VS 下的運作結果為 12，三個成員按照各自的類型存儲（與不指定位寬時的存儲方式相同）。

m 、ch、p 的長度分别是 4、1、4 個位元組，共計占用 9 個位元組記憶體，為什麼在 VC/VS 下的輸出結果卻是 12 呢？這個疑問将在《C語言和記憶體》專題的《C語言記憶體對齊，提高尋址效率》一節中為您解開。

3) 如果成員之間穿插着非位域成員，那麼不會進行壓縮。例如對于下面的 bs：

struct bs{
    unsigned m: 12;
    unsigned ch;
    unsigned p: 4;
};

在各個編譯器下 sizeof 的結果都是 12。

通過上面的分析，我們發現位域成員往往不占用完整的位元組，有時候也不處于位元組的開頭位置，是以使用&擷取位域成員的位址是沒有意義的，C語言也禁止這樣做。位址是位元組（Byte）的編号，而不是位（Bit）的編号。

無名位域

位域成員可以沒有名稱，隻給出資料類型和位寬，如下所示：

struct bs{
    int m: 12;
    int  : 20;  //該位域成員不能使用
    int n: 4;
};

無名位域一般用來作填充或者調整成員位置。因為沒有名稱，無名位域不能使用。

上面的例子中，如果沒有位寬為 20 的無名成員，m、n 将會挨着存儲，sizeof(struct bs) 的結果為 4；有了這 20 位作為填充，m、n 将分開存儲，sizeof(struct bs) 的結果為 8。

位域相關知識

繼續閱讀

樹的基本概念(定義、基本術語、性質)

GSL--GNU Scientific Library

D5|哈希表，善用資料結構

如何成為一名.net 工程師?

BMP檔案結構及圖像每行位元組計算方法

D. Ehab the Xorcist(構造+思維)

查找算法之二分查找查找算法之二分查找

JAVA高效程式設計指南

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

【資料結構】醫院選址

[轉]ISUP信令的IAM消息詳細内容

筆試面試題目：滑動視窗(二)

交通/城市相關的公開的資料集上學時整理的Xie et al., 2020收集的

資料結構與算法（27）——排序（二）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

Linux裝置模型（中）之上層容器