如果兩個操作通路同一個變量,且這兩個操作中有一個為寫操作,此時這兩個操作之間就存在資料依賴性。資料依賴分下列三種類型:
名稱
代碼示例
說明
寫後讀
a = 1;b = a;
寫一個變量之後,再讀這個位置。
寫後寫
a = 1;a = 2;
寫一個變量之後,再寫這個變量。
讀後寫
a = b;b = 1;
讀一個變量之後,再寫這個變量。
上面三種情況,隻要重排序兩個操作的執行順序,程式的執行結果将會被改變。
前面提到過,編譯器和處理器可能會對操作做重排序。編譯器和處理器在重排序時,會遵守資料依賴性,編譯器和處理器不會改變存在資料依賴關系的兩個操作的執行順序。
注意,這裡所說的資料依賴性僅針對單個處理器中執行的指令序列和單個線程中執行的操作,不同處理器之間和不同線程之間的資料依賴性不被編譯器和處理器考慮。
as-if-serial語義的意思指:不管怎麼重排序(編譯器和處理器為了提高并行度),(單線程)程式的執行結果不能被改變。編譯器,runtime 和處理器都必須遵守as-if-serial語義。
為了遵守as-if-serial語義,編譯器和處理器不會對存在資料依賴關系的操作做重排序,因為這種重排序會改變執行結果。但是,如果操作之間不存在資料依賴關系,這些操作可能被編譯器和處理器重排序。為了具體說明,請看下面計算圓面積的代碼示例:
上面三個操作的資料依賴關系如下圖所示:

如上圖所示,a和c之間存在資料依賴關系,同時b和c之間也存在資料依賴關系。是以在最終執行的指令序列中,c不能被重排序到a和b的前面(c排到a和b的前面,程式的結果将會被改變)。但a和b之間沒有資料依賴關系,編譯器和處理器可以重排序a和b之間的執行順序。下圖是該程式的兩種執行順序:
as-if-serial語義把單線程程式保護了起來,遵守as-if-serial語義的編譯器,runtime 和處理器共同為編寫單線程程式的程式員建立了一個幻覺:單線程程式是按程式的順序來執行的。as-if-serial語義使單線程程式員無需擔心重排序會幹擾他們,也無需擔心記憶體可見性問題。
根據happens- before的程式順序規則,上面計算圓的面積的示例代碼存在三個happens- before關系:
a happens- before b;
b happens- before c;
a happens- before c;
這裡的第3個happens- before關系,是根據happens- before的傳遞性推導出來的。
這裡a happens- before b,但實際執行時b卻可以排在a之前執行(看上面的重排序後的執行順序)。在第一章提到過,如果a happens- before b,jmm并不要求a一定要在b之前執行。jmm僅僅要求前一個操作(執行的結果)對後一個操作可見,且前一個操作按順序排在第二個操作之前。這裡操作a的執行結果不需要對操作b可見;而且重排序操作a和操作b後的執行結果,與操作a和操作b按happens- before順序執行的結果一緻。在這種情況下,jmm會認為這種重排序并不非法(not illegal),jmm允許這種重排序。
在計算機中,軟體技術和硬體技術有一個共同的目标:在不改變程式執行結果的前提下,盡可能的開發并行度。編譯器和處理器遵從這一目标,從happens- before的定義我們可以看出,jmm同樣遵從這一目标。
現在讓我們來看看,重排序是否會改變多線程程式的執行結果。請看下面的示例代碼:
flag變量是個标記,用來辨別變量a是否已被寫入。這裡假設有兩個線程a和b,a首先執行writer()方法,随後b線程接着執行reader()方法。線程b在執行操作4時,能否看到線程a在操作1對共享變量a的寫入?
答案是:不一定能看到。
由于操作1和操作2沒有資料依賴關系,編譯器和處理器可以對這兩個操作重排序;同樣,操作3和操作4沒有資料依賴關系,編譯器和處理器也可以對這兩個操作重排序。讓我們先來看看,當操作1和操作2重排序時,可能會産生什麼效果?請看下面的程式執行時序圖:
如上圖所示,操作1和操作2做了重排序。程式執行時,線程a首先寫标記變量flag,随後線程b讀這個變量。由于條件判斷為真,線程b将讀取變量a。此時,變量a還根本沒有被線程a寫入,在這裡多線程程式的語義被重排序破壞了!
※注:本文統一用紅色的虛箭線表示錯誤的讀操作,用綠色的虛箭線表示正确的讀操作。
下面再讓我們看看,當操作3和操作4重排序時會産生什麼效果(借助這個重排序,可以順便說明控制依賴性)。下面是操作3和操作4重排序後,程式的執行時序圖:
在程式中,操作3和操作4存在控制依賴關系。當代碼中存在控制依賴性時,會影響指令序列執行的并行度。為此,編譯器和處理器會采用猜測(speculation)執行來克服控制相關性對并行度的影響。以處理器的猜測執行為例,執行線程b的處理器可以提前讀取并計算a*a,然後把計算結果臨時儲存到一個名為重排序緩沖(reorder buffer rob)的硬體緩存中。當接下來操作3的條件判斷為真時,就把該計算結果寫入變量i中。
從圖中我們可以看出,猜測執行實質上對操作3和4做了重排序。重排序在這裡破壞了多線程程式的語義!
在單線程程式中,對存在控制依賴的操作重排序,不會改變執行結果(這也是as-if-serial語義允許對存在控制依賴的操作做重排序的原因);但在多線程程式中,對存在控制依賴的操作重排序,可能會改變程式的執行結果。