天天看點

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

開源中國:

從這段代碼裡你看到了什麼問題?我們都知道,這段程式裡少了一個#include <stdio.h> 還少了一個return 0;的傳回語句。

  不過,讓我們來深入的學習一下,這段代碼在C++下無法編譯,因為C++需要明确聲明函數。這段代碼在C的編譯器下會編譯通過,因為在編譯期,編譯器會生成一個printf的函數定義,并生成.o檔案,連結時,會找到标準的連結庫,是以能編譯通過。

  但是,你知道這段程式的退出碼嗎?在ANSI-C下,退出碼是一些未定義的垃圾數。但在C89下,退出碼是3,因為其取了printf的傳回值。為 什麼printf函數傳回3呢?因為其輸出了’4′, ’2′,’\n’ 三個字元。而在C99下,其會傳回0,也就是成功地運作了這段程式。你可以使用gcc的 -std=c89或是-std=c99來編譯上面的程式看結果。

  另外,我們還要注意main(),在C标準下,如果一個函數不要參數,應該聲明成main(void),而main()其實相當于main(…),也就是說其可以有任意多的參數。

我們再來看一段代碼:

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

  這個程式會輸出什麼?

  我相信你對a的輸出相當有把握,就分别是4,5,6,因為那個靜态變量。對于c呢,你應該也比較肯定,那是一堆亂數。

但是你可能不知道b的輸出會是什麼?答案是1,2,3。為什麼和c不一樣呢?因為,如果要初始化,每次調用函數裡,編譯器都要初始化函數棧空間,這太費性能了。但是c的編譯器會初始化靜态變量為0,因為這隻是在啟動程式時的動作。

  全局變量同樣會被初始化。

  說到全局變量,你知道 靜态全局變量和一般全局變量的差别嗎?是的,對于static 的全局變量,其對連結器不可以見,也就是說,這個變量隻能在目前檔案中使用。

我們再來看一個例子:

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

  你知道這段代碼會輸出什麼嗎?A) 一個随機值,B) 42。A 和 B都對(在“在函數外存取局部變量的一個比喻”文中的最後給過這個例子),不過,你知道為什麼嗎?

  如果你使用一般的編譯,會輸出42,因為我們的編譯器優化了函數的調用棧(重用了之前的棧),為的是更快,這沒有什麼副作用。反正你不初始化,他就是随機值,既然是随機值,什麼都無所謂。

  但是,如果你的編譯打開了代碼優化的開關,-O,這意味着,foo()函數的代碼會被優化成main()裡的一個inline函數,也就是說沒有函數調用,就像宏定義一樣。于是你會看到一個随機的垃圾數。

下面,我們再來看一個示例:

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

  這段程式會輸出什麼?,你會說是,3,4,7。但是我想告訴你,這也有可能輸出,4,3,7。為什麼呢? 這是因為,在C/C++中,表達的評估次序是沒有标準定義的。編譯器可以正着來,也可以反着來,是以,不同的編譯器會有不同的輸出。你知道這個特性以後, 你就知道這樣的程式是沒有可移植性的。

  我們再來看看下面的這堆代碼,他們分别輸出什麼呢?

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

隻有示例一,示例三,示例四輸出42,而示例二和五的行為則是未定義的。關于這種未定義的東西又叫Sequence Points,因為這會讓編譯器不知道在一個表達式順列上如何存取變量的值。比如a = a++,a + a++,不過,在C中,這樣的情況很少。

下面,再看一段代碼:(假設int為4位元組,char為1位元組)

這個代碼會輸出什麼?

a) 9,10

b)12, 12

c)12, 16

答案是C,我想,你一定知道位元組對齊,是向4的倍數對齊。

  但是,你知道為什麼要位元組對齊嗎?還是因為性能。因為這些東西都在記憶體裡,如果不對齊的話,我們的編譯器就要向記憶體一個位元組一個位元組的取,這樣一來,struct X,就需要取9次,太浪費性能了,而如果我一次取4個位元組,那麼我三次就搞定了。是以,這是為了性能的原因。

  但是,為什麼struct Y不向12 對齊,卻要向16對齊,因為char d; 被加在了最後,當編譯器計算一個結構體的尺寸時,是邊計算,邊對齊的。也就是說,編譯器先看到了int,很好,4位元組,然後是 char,一個位元組,而後面的int又不能填上還剩的3個位元組,不爽,把char b對齊成4,于是計算到d時,就是13 個位元組,于是就是16啦。但是如果換一下d和c的聲明位置,就是12了。

  另外,再提一下,上述程式的printf中的%d并不好,因為,在64位下,sizeof的size_t是unsigned long,而32位下是 unsigned int,是以,C99引入了一個專門給size_t用的%zu。這點需要注意。在64位平台下,C/C++ 的編譯需要注意很多事。你可以參看《64位平台C/C++開發注意事項》。

下面,我們再說說編譯器的Warning,請看代碼:

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

考慮下面兩種編譯代碼的方式 :

1

2

3

<code>cc -Wall a.c</code>

<code>cc -Wall -O a.c</code>

  

前一種是不會編譯出a未初化的警告資訊的,而隻有在-O的情況下,再會有未初始化的警告資訊。這點就是為什麼我們在makefile裡的CFLAGS上總是需要-Wall和 -O。

最後,我們再來看一個指針問題,你看下面的代碼:

深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生
深入了解c語言_從編譯器的角度考慮問題_紀念Dennis Ritchie先生

假如我們的a的位址是:0Xbfe2e100, 而且是32位機,那麼這個程式會輸出什麼?

第一條printf語句應該沒有問題,就是 bfe2e100

第二條printf語句你可能會以為是bfe2e101。那就錯了,a+1,編譯器會編譯成 a+ 1*sizeof(int),int在32位下是4位元組,是以是加4,也就是bfe2e104

第三條printf語句可能是你最頭疼的,我們怎麼知道a的位址?我不知道嗎?可不就是bfe2e100。那豈不成了a==&amp;a啦?這怎麼 可能?自己存自己的?也許很多人會覺得指針和數組是一回事,那麼你就錯了。如果是 int *a,那麼沒有問題,a == &amp;a。但是這是數組啊a[],是以&amp;a其實是被編譯成了 &amp;a[0]。

第四條printf語句就很自然了,就是bfe2e114。

看過這麼多,你可能會覺得C語言設計得真拉淡啊。不過我要告訴下面幾點Dennis當初設計C語言的初衷:

今天很多語言進化得很進階了,文法也越來越複雜和強大,但是C語言依然光芒四射,Dennis離世了,但是C語言的這些設計思路将永遠不朽。

 本文轉自二郎三郎部落格園部落格,原文連結:http://www.cnblogs.com/haore147/p/3649088.html,如需轉載請自行聯系原作者

繼續閱讀