無鎖(lock-free)資料結構

提到并行計算通常都會想到加鎖，事實卻并非如此，大多數并發是不需要加鎖的。比如在不同電腦上運作的代碼編輯器，兩者并發運作不需要加鎖。在一台電腦上同時運作的媒體播放放器和代碼編輯器，兩者并發運作不需要加鎖(當然系統調用和程序排程是要加鎖的)。在同一個程序中運作多個線程，如果各自處理獨立的事情也不需要加鎖(當然系統調用、程序排程和記憶體配置設定是要加鎖的)。在以上這些情況裡，各個并發實體之間沒有共享資料，是以雖然并發運作但不需要加鎖。

多線程并發運作時，雖然有共享資料，如果所有線程隻是讀取共享資料而不修改它，也是不用加鎖的，比如代碼段就是共享的“資料”，每個線程都會讀取，但是不用加鎖。排除所有這些情況，多線程之間有共享資料，有的線程要修改這些共享資料，有的線程要讀取這些共享資料，這才是程式員需要關注的情況，也是本節我們讨論的範圍。

在并發的環境裡，加鎖可以保護共享的資料，但是加鎖也會存在一些問題：

由于臨界區無法并發運作，進入臨界區就需要等待，加鎖帶來效率的降低。

在複雜的情況下，很容易造成死鎖，并發實體之間無止境的互相等待。

在中斷/信号處理函數中不能加鎖，給并發處理帶來困難。

優先級倒置造成實時系統不能正常工作。低級優先程序拿到高優先級程序需要的鎖，結果是高/低優先級的程序都無法運作，中等優先級的程序可能在狂跑。

由于并發與加鎖(互斥)的沖突關系，無鎖資料結構自然成為程式員關注的焦點，這也是本節要介紹的：

CPU提供的原子操作

大約在七八年前，我們用apache的xerces來解析XML檔案，奇怪的是多線程反而比單線程慢。他們找了很久也沒有找出原因，隻是證明使用多程序代替多線程會快一個數量級，在Windows上他們就使用了多程序的方式。後來移植到linux時候，我發現xerces每建立一個結點都會去更新一些全局的統計資訊，比如把結點的總數加一，它使用的pthread_mutex實作互斥。這就是問題所在：一個XML文檔有數以萬計的結點，以50個線程并發為例，每個線程解析一個XML文檔，總共要進行上百萬次的加鎖/解鎖，幾乎所有線程都在等待，你說能快得了嗎？

當時我知道Windows下有InterlockedIncrement之類的函數，它們利用CPU一些特殊指令，保證對整數的基本操作是原子的。查找了一些資源發現Linux下也有類似的函數，後來我把所有加鎖去掉，換成這些原子操作，速度比多程序運作還快了幾倍。下面我們看++和—的原子操作在IA架構上的實作：

無鎖(lock-free)資料結構

#define ATOMIC_SMP_LOCK "lock ; "

無鎖(lock-free)資料結構

typedef struct { volatile int counter; } atomic_t;

無鎖(lock-free)資料結構

static __inline__ void atomic_inc(atomic_t *v)

無鎖(lock-free)資料結構

{

無鎖(lock-free)資料結構

__asm__ __volatile__(

無鎖(lock-free)資料結構

ATOMIC_SMP_LOCK "incl %0"

無鎖(lock-free)資料結構

:"=m" (v->counter)

無鎖(lock-free)資料結構

:"m" (v->counter));

無鎖(lock-free)資料結構

}

無鎖(lock-free)資料結構

static __inline__ void atomic_dec(atomic_t *v)

無鎖(lock-free)資料結構

ATOMIC_SMP_LOCK "decl %0"

無鎖(lock-free)資料結構

單入單出的循環隊列。單入單出的循環隊列是一種特殊情況，雖然特殊但是很實用，重要的是它不需要加鎖。這裡的單入是指隻有一個線程向隊列裡追加資料(push)，單出隻是指隻有一個線程從隊列裡取資料(pop)，循環隊列與普通隊列相比，不同之處在于它的最大資料儲存量是事先固定好的，不能動态增長。盡管有這些限制它的應用還是相當廣泛的。這我們介紹一下它的實作：

資料下定義如下：

無鎖(lock-free)資料結構

typedef struct _FifoRing

無鎖(lock-free)資料結構

int r_cursor;

無鎖(lock-free)資料結構

int w_cursor;

無鎖(lock-free)資料結構

size_t length;

無鎖(lock-free)資料結構

void* data[0];

無鎖(lock-free)資料結構

}FifoRing;

r_cursor指向隊列頭，用于取資料(pop)。w_cursor指向隊列尾，用于追加資料(push)。length表示隊列的最大資料儲存量，data表示存放的資料，[0]在這裡表示變長的緩沖區(前面我們已經講過)。

建立函數

無鎖(lock-free)資料結構

FifoRing* fifo_ring_create(size_t length)

無鎖(lock-free)資料結構

FifoRing* thiz = NULL;

無鎖(lock-free)資料結構

return_val_if_fail(length > 1, NULL);

無鎖(lock-free)資料結構

thiz = (FifoRing*)malloc(sizeof(FifoRing) + length * sizeof(void*));

無鎖(lock-free)資料結構

if(thiz != NULL)

無鎖(lock-free)資料結構

{

無鎖(lock-free)資料結構

thiz->r_cursor = 0;

無鎖(lock-free)資料結構

thiz->w_cursor = 0;

無鎖(lock-free)資料結構

thiz->length = length;

無鎖(lock-free)資料結構

}

無鎖(lock-free)資料結構

return thiz;

無鎖(lock-free)資料結構

這裡我們要求隊列的長度大于1而不是大于0，為什麼呢？排除長度為1的隊列沒有什麼意義的原因外，更重要的原因是隊列頭與隊列尾重疊 (r_cursor= =w_cursor) 時，到底表示是滿隊列還是空隊列？這個要搞清楚才行，上次一個同僚犯了這個錯誤，讓我們查了很久。這裡我們認為隊列頭與隊列尾重疊時表示隊列為空，這與隊列初始狀态一緻，後面在寫的時候始終保留一個空位，避免隊列頭與隊列尾重疊，這樣可以消除歧義了。

追加資料(push)

無鎖(lock-free)資料結構

Ret fifo_ring_push(FifoRing* thiz, void* data)

無鎖(lock-free)資料結構

int w_cursor = 0;

無鎖(lock-free)資料結構

Ret ret = RET_FAIL;

無鎖(lock-free)資料結構

return_val_if_fail(thiz != NULL, RET_FAIL);

無鎖(lock-free)資料結構

w_cursor = (thiz->w_cursor + 1) % thiz->length;

無鎖(lock-free)資料結構

if(w_cursor != thiz->r_cursor)

無鎖(lock-free)資料結構

thiz->data[thiz->w_cursor] = data;

無鎖(lock-free)資料結構

thiz->w_cursor = w_cursor;

無鎖(lock-free)資料結構

ret = RET_OK;

無鎖(lock-free)資料結構

return ret;

無鎖(lock-free)資料結構

隊列頭和隊列尾之間還有一個以上的空位時就追加資料，否則傳回失敗。

取資料(pop)

無鎖(lock-free)資料結構

Ret fifo_ring_pop(FifoRing* thiz, void** data)

無鎖(lock-free)資料結構

return_val_if_fail(thiz != NULL && data != NULL, RET_FAIL);

無鎖(lock-free)資料結構

if(thiz->r_cursor != thiz->w_cursor)

無鎖(lock-free)資料結構

*data = thiz->data[thiz->r_cursor];

無鎖(lock-free)資料結構

thiz->r_cursor = (thiz->r_cursor + 1)%thiz->length;

無鎖(lock-free)資料結構

隊列頭和隊列尾不重疊表示隊列不為空，取資料并移動隊列頭。

單寫多讀的無鎖資料結構

單寫表示隻有一個線程去修改共享資料結構，多讀表示有多個線程去讀取共享資料結構。前面介紹的讀寫鎖可以有效的解決這個問題，但更高效的辦法是使用無鎖資料結構。思路如下：

就像為了避免顯示閃爍而使用的雙緩沖一樣，我們使用兩份資料結構，一份資料結構用于讀取，所有線程都可以在不加鎖的情況下讀取這個資料結構。另外一份資料結構用于修改，由于隻有一個線程會修改它，是以也不用加鎖。

在修改之後，我們再交換讀/寫的兩個函數結構，把另外一份也修改過來，這樣兩個資料結構就一緻了。在交換時要保證沒有線程在讀取，是以我們還需要一個讀線程的引用計數。現在我們看看怎麼把前面寫的雙向連結清單改為單寫多讀的無鎖資料結構。

為了保證交換是原子的，我們需要一個新的原子操作CAS(compare and swap)。

無鎖(lock-free)資料結構

#define CAS(_a, _o, _n) \

無鎖(lock-free)資料結構

({ __typeof__(_o) __o = _o; \

無鎖(lock-free)資料結構

__asm__ __volatile__( \

無鎖(lock-free)資料結構

"lock cmpxchg %3,%1" \

無鎖(lock-free)資料結構

: "=a" (__o), "=m" (*(volatile unsigned int *)(_a)) \

無鎖(lock-free)資料結構

: "0" (__o), "r" (_n) ); \

無鎖(lock-free)資料結構

__o; \

無鎖(lock-free)資料結構

})

資料結構

無鎖(lock-free)資料結構

typedef struct _SwmrDList

無鎖(lock-free)資料結構

atomic_t rd_index_and_ref;

無鎖(lock-free)資料結構

DList* dlists[2];

無鎖(lock-free)資料結構

}SwmrDList;

兩個連結清單，一個用于讀一個用于寫。rd_index_and_ref的最高位元組記錄用于讀取的雙向連結清單的索引，低24位用于記錄讀取線程的引用記數，最大支援16777216個線程同時讀取，應該是足夠了，是以後面不考慮它的溢出。

讀取操作

無鎖(lock-free)資料結構

int swmr_dlist_find(SwmrDList* thiz, DListDataCompareFunc cmp, void* ctx)

無鎖(lock-free)資料結構

int ret = 0;

無鎖(lock-free)資料結構

return_val_if_fail(thiz != NULL && thiz->dlists != NULL, -1);

無鎖(lock-free)資料結構

atomic_inc(&(thiz->rd_index_and_ref));

無鎖(lock-free)資料結構

size_t rd_index = (thiz->rd_index_and_ref.counter>>24) & 0x1;

無鎖(lock-free)資料結構

ret = dlist_find(thiz->dlists[rd_index], cmp, ctx);

無鎖(lock-free)資料結構

atomic_dec(&(thiz->rd_index_and_ref));

無鎖(lock-free)資料結構

修改操作

無鎖(lock-free)資料結構

Ret swmr_dlist_insert(SwmrDList* thiz, size_t index, void* data)

無鎖(lock-free)資料結構

DList* wr_dlist = NULL;

無鎖(lock-free)資料結構

return_val_if_fail(thiz != NULL && thiz->dlists != NULL, ret);

無鎖(lock-free)資料結構

size_t wr_index = !((thiz->rd_index_and_ref.counter>>24) & 0x1);

無鎖(lock-free)資料結構

if((ret = dlist_insert(thiz->dlists[wr_index], index, data)) == RET_OK)

無鎖(lock-free)資料結構

int rd_index_old = thiz->rd_index_and_ref.counter & 0xFF000000;

無鎖(lock-free)資料結構

int rd_index_new = wr_index << 24;

無鎖(lock-free)資料結構

{

無鎖(lock-free)資料結構

usleep(100);

無鎖(lock-free)資料結構

}while(CAS(&(thiz->rd_index_and_ref), rd_index_old, rd_index_new));

無鎖(lock-free)資料結構

wr_index = rd_index_old>>24;

無鎖(lock-free)資料結構

ret = dlist_insert(thiz->dlists[wr_index], index, data);

無鎖(lock-free)資料結構

先修改用于修改的雙向連結清單，修改完成之後等到沒有線程讀取時，交換讀/寫兩個連結清單，再修改另一個連結清單，此時兩個連結清單狀态保持一緻。

稍做改進，對修改的操作進行加鎖，就可以支援多讀多寫的資料結構，讀是無鎖的，寫是加鎖的。

真正的無鎖資料結構

Andrei Alexandrescu的《Lock-FreeDataStructures》估計是這方面最經典的論文了，對他的方法我開始感到驚奇後來感到失望，驚奇的是算法的巧妙，失望的是無鎖的限制和代價。作者最後說這種資料結構隻适用于WRRMBNTM(Write-Rarely-Read-Many -But-Not-Too-Many)的情況。而且每次修改都要拷貝整個資料結構（甚至多次），是以不要指望這種方法能帶來多少性能上的提高，唯一的好處是能避免加鎖帶來的部分副作用。有興趣的朋友可以看下這篇論文，這裡我就不重複了。

無鎖(lock-free)資料結構

繼續閱讀

手動安裝Intel network I217-LM網卡的Linux驅動

Windows下配置Apache的SSL服務

禁止ubuntu系統彈出報錯界面

Mac｜Windows系統本地照片自動上傳到伺服器

資料結構與算法（27）——排序（二）

Apache2.4.x 配置檔案詳解Apache配置需要了解如下：開始講解：

配置apache支援PHP（win7）

Ubuntu Linux下Apache的配置檔案

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

samba伺服器的功能

面試題解析：你接口測試是怎麼做的？

【Linux】UDP廣播封包接收速率問題

Linux裝置模型（中）之上層容器

PowerPC平台 Linux移植三

hdu7108哈希