天天看點

linux 和 window 的EOF

學習linux 和 window 的EOF,記錄如下。

1. 檔案read

在window下建立一個檔案,輸入如下:

檔案名: window.log

123456789

123

在linux下也建立一個檔案,輸入如下:

檔案名: linux.log

123456789

123

在16進制下檢視比較兩個檔案,截圖如下:

window.log

linux 和 window 的EOF

linux.log

linux 和 window 的EOF

可見,window.log中換行符為 0D0A(\r\n),linux.log中的換行符為0A(\n).

但這裡需要注意到, window.log中沒有EOF(檔案結束符), linux.log中也沒有EOF(檔案結束符)。 但是linux.log檔案結束時有0A 這個字段, 也沒有EOF。

linux 下寫代碼輸出 linux.log内容:

#include <stdio.h>
int main(int argc,char *argv[])
{ 
 int i=;
 FILE *fp;
 char ch;
 fp=fopen(argv[],"r");
 while((ch=fgetc(fp))!=EOF)
 {
  printf("i=%d\n",i);            //測試時輸出i的值,非必要
  printf("ch=%c(%d)\n",ch,ch);   //測試時輸出c的值,非必要
  i++;
 }
 printf("%dBytes\n",i);
 return ;
}
           

結果輸出:

linux 和 window 的EOF

可見,linux.log 檔案結束時的 0A 是被列印出來的。

網上搜尋了下EOF資料:

http://www.ruanyifeng.com/blog/2011/11/eof.html 寫的很好。

我學習C語言的時候,遇到的一個問題就是EOF。

它是end of file的縮寫,表示”文字流”(stream)的結尾。這裡的”文字流”,可以是檔案(file),也可以是标準輸入(stdin)。

比如,下面這段代碼就表示,如果不是檔案結尾,就把檔案的内容複制到螢幕上。

  int c;

  while ((c = fgetc(fp)) != EOF) {

    putchar (c);

  }

很自然地,我就以為,每個檔案的結尾處,有一個叫做EOF的特殊字元,讀取到這個字元,作業系統就認為檔案結束了。

但是,後來我發現,EOF不是特殊字元,而是一個定義在頭檔案stdio.h的常量,一般等于-1。

  #define EOF (-1)

于是,我就困惑了。

如果EOF是一個特殊字元,那麼假定每個文本檔案的結尾都有一個EOF(也就是-1),還是可以做到的,因為文本對應的ASCII碼都是正值,不可能有負值。但是,二進制檔案怎麼辦呢?怎麼處理檔案内部包含的-1呢?

這個問題讓我想了很久,後來查了資料才知道,在Linux系統之中,EOF根本不是一個字元,而是當系統讀取到檔案結尾,所傳回的一個信号值(也就是-1)。至于系統怎麼知道檔案的結尾,資料上說是通過比較檔案的長度。

是以,處理檔案可以寫成下面這樣:

  int c;

  while ((c = fgetc(fp)) != EOF) {

    do something

  }

這樣寫有一個問題。fgetc()不僅是遇到檔案結尾時傳回EOF,而且當發生錯誤時,也會傳回EOF。是以,C語言又提供了feof()函數,用來保證确實是到了檔案結尾。上面的代碼feof()版本的寫法就是:

  int c;

  while (!feof(fp)) {

    c = fgetc(fp);

    do something;

  }

但是,這樣寫也有問題。fgetc()讀取檔案的最後一個字元以後,C語言的feof()函數依然傳回0,表明沒有到達檔案結尾;隻有當fgetc()向後再讀取一個字元(即越過最後一個字元),feof()才會傳回一個非零值,表示到達檔案結尾。

是以,按照上面這樣寫法,如果一個檔案含有n個字元,那麼while循環的内部操作會運作n+1次。是以,最保險的寫法是像下面這樣:

  int c = fgetc(fp);

  while (c != EOF) {

    do something;

    c = fgetc(fp);

  }

  if (feof(fp)) {

    printf(“\n End of file reached.”);

  } else {

    printf(“\n Something went wrong.”);

  }

除了表示檔案結尾,EOF還可以表示标準輸入的結尾。

  int c;

  while ((c = getchar()) != EOF) {

    putchar(c);

  }

但是,标準輸入與檔案不一樣,無法事先知道輸入的長度,必須手動輸入一個字元,表示到達EOF。

2. getchar()

1.getchar是以行為機關進行存取的。

當用getchar進行輸入時,如果輸入的第一個字元為有效字元(即輸入是檔案結束符EOF,Windows下為組合鍵Ctrl+Z,Unix/Linux下為組合鍵Ctrl+D),那麼隻有當最後一個輸入字元為換行符’\n’(也可以是檔案結束符EOF,EOF将在後面讨論)時,getchar才會停止執行,整個程式将會往下執行。譬如下面程式段:

while((c =getchar())!=EOF){

putchar(c);

}

執行程式,輸入:abc,然後回車。則程式就會去執行puchar(c),然後輸出abc,這個地方不要忘了,系統輸出的還有一個回車。然後可以繼續輸入,再次遇到換行符的時候,程式又會把那一行的輸入的字元輸出在終端上。

對于getchar,肯定很多初學的朋友會問,getchar不是以字元為機關讀取的嗎?那麼,既然我輸入了第一個字元a,肯定滿足while循環(c = getchar()) != EOF的條件阿,那麼應該執行putchar(c)在終端輸出一個字元a。不錯,我在用getchar的時候也是一直這麼想的,但是程式就偏偏不着樣執行,而是必需讀到一個換行符或者檔案結束符EOF才進行一次輸出。

對這個問題的一個解釋是,在大師編寫C的時候,當時并沒有所謂終端輸入的概念,所有的輸入實際上都是按照檔案進行讀取的,檔案中一般都是以行為機關的。是以,隻有遇到換行符,那麼程式會認為輸入結束,然後采取執行程式的其他部分。同時,輸入是按照檔案的方式存取的,那麼要結束一個檔案的輸入就需用到EOF(Enf Of File). 這也就是為什麼getchar結束輸入退出時要用EOF的原因。

2.getchar()的傳回值一般情況下是字元,但也可能是負值,即傳回EOF。

這裡要強調的一點就是,getchar函數通常傳回終端所輸入的字元,這些字元系統中對應的ASCII值都是非負的。是以,很多時候,我們會寫這樣的兩行代碼:

char c;

c =getchar();

這樣就很有可能出現問題。因為getchar函數除了傳回終端輸入的字元外,在遇到Ctrl+D(Linux下)即檔案結束符EOF時,getchar()的傳回EOF,這個EOF在函數庫裡一般定義為-1。是以,在這種情況下,getchar函數傳回一個負值,把一個負值賦給一個char型的變量是不正确的。為了能夠讓所定義的變量能夠包含getchar函數傳回的所有可能的值,正确的定義方法如下(K&R C中特别提到了這個問題):

int c;

c =getchar();

3.EOF的兩點總結(主要指普通終端中的EOF)

3.1.EOF作為檔案結束符時的情況:

EOF雖然是檔案結束符,但并不是在任何情況下輸入Ctrl+D(Windows下Ctrl+Z)都能夠實作檔案結束的功能,隻有在下列的條件下,才作為檔案結束符。

(1)遇到getcahr函數執行時,要輸入第一個字元時就直接輸入Ctrl+D,就可以跳出getchar(),去執行程式的其他部分;

(2)在前面輸入的字元為換行符時,接着輸入Ctrl+D;

(3)在前面有字元輸入且不為換行符時,要連着輸入兩次Ctrl+D,這時第二次輸入的Ctrl+D起到檔案結束符的功能,至于第一次的Ctrl+D的作用将在下面介紹。

其實,這三種情況都可以總結為隻有在getchar()提示新的一次輸入時,直接輸入Ctrl+D才相當于檔案結束符。

3.2.EOF作為行結束符時的情況,這時候輸入Ctrl+D并不能結束getchar(),而隻能引發getchar()提示下一輪的輸入。

這種情況主要是在進行getchar()新的一行輸入時,當輸入了若幹字元(不能包含換行符)之後,直接輸入Ctrl+D,此時的Ctrl+D并不是檔案結束符,而隻是相當于換行符的功能,即結束目前的輸入。以上面的代碼段為例,如果執行時輸入abc,然後Ctrl+D,程式輸出結果為:

abcabc

注意:第一組abc為從終端輸入的,然後輸入Ctrl+D,就輸出第二組abc,同時光标停在第二組字元的c後面,然後可以進行新一次的輸入。這時如果再次輸入Ctrl+D,則起到了檔案結束符的作用,結束getchar()。

如果輸入abc之後,然後回車,輸入換行符的話,則終端顯示為:

abc //第一行,帶回車

abc //第二行

//第三行

其中第一行為終端輸入,第二行為終端輸出,光标停在了第三行處,等待新一次的終端輸入。

從這裡也可以看出Ctrl+D和換行符分别作為行結束符時,輸出的不同結果。

EOF的作用也可以總結為:當終端有字元輸入時,Ctrl+D産生的EOF相當于結束本行的輸入,将引起getchar()新一輪的輸入;當終端沒有字元輸入或者可以說當getchar()讀取新的一次輸入時,輸入Ctrl+D,此時産生的EOF相當于檔案結束符,程式将結束getchar()的執行。

繼續閱讀