天天看點

【一天一個shell指令】文本内容操作系列-cut

說明:

cut 按列切分檔案,你可以指定分隔每列的定界符。在cut的術語中,每列都是一個字段,就是有時候說第一列,可能表述稱第一個字段。 

實戰:

假設有檔案data.txt,格式如下

NO    Name    Mark    Percent 

1    Sarath    45    90 

2    Alex    49    98 

3    Anu    45    90 

分隔符(定界符)為Tab 制表符

如果我要取得第二列,所有人的名稱,有什麼好的辦法嗎?此時cut該大顯身手了。 

1. 取得2,3列 即name,和mark

$cut –f 2,3 data.txt 

2. 取得除第3列以外所有列

$cut –f3 –complement data.txt 

3. 采取其他定界符,可以用-d改變。

 假設data_comma.txt:

NO,Name,Mark,Percent 

1,Sarath,45,90 

2,Alex,49,98 

3,Anu,45,90 

 則:

$cut –f2 -d"," data_comma.txt 

解讀—help

用法:cut [選項]... [檔案]... 

從每個檔案中輸出指定部分到标準輸出。

長選項必須使用的參數對于短選項時也是必需使用的。 

  -b, --bytes=清單            隻選中指定的這些位元組 

  -c, --characters=清單       隻選中指定的這些字元 

  -d, --delimiter=分界符      使用指定分界符代替制表符作為區域分界 

  -f, --fields=清單           隻選中指定的這些域;并列印所有不包含分界符的 

                行,除非-s 選項被指定 

  -n                (忽略) 

      --complement            補全選中的位元組、字元或域 

  -s, --only-delimited        不列印沒有包含分界符的行 

      --output-delimiter=字元串    使用指定的字元串作為輸出分界符,預設采用輸入 

                的分界符 

      --help                  顯示此幫助資訊并退出 

      --version               顯示版本資訊并退出

僅使用f -b, -c 或-f 中的一個。每一個清單都是專門為一個類别作出的,或者您可以用逗号隔 

開要同時顯示的不同類别。您的輸入順序将作為讀取順序,每個僅能輸入一次。 

每種參數格式表示範圍如下: 

    N    從第1 個開始數的第N 個位元組、字元或域 

    N-    從第N 個開始到所在行結束的所有字元、位元組或域 

    N-M    從第N 個開始到第M 個之間(包括第M 個)的所有字元、位元組或域 

    -M    從第1 個開始到第M 個之間(包括第M 個)的所有字元、位元組或域

當沒有檔案參數,或者檔案不存在時,從标準輸入讀取

 解讀:

1.取得某一列的字元或者位元組 可以用-c, -b等

2.可以取得某個範圍

1和2綜合例子:

有檔案range_data.txt,内容如下

abcdefghijklmnopqrstuvwxyz 

abcdefghijklmnopqrstuvwxyz

運作:$cut range_data.txt -c-2

列印字元1-2列

再複雜一點:

$cut range_data.txt -c1-3,6-9 --output-delimiter ","

列印1-3行,6-9行,并且用逗号分隔。

指令比較簡單,主要還是借鑒書籍《linux shell腳本攻略》,從附件中會看到一排格式很差的字母,嘗試用-s過濾掉他。

<a href="http://down.51cto.com/data/2361227" target="_blank">附件:http://down.51cto.com/data/2361227</a>

本文轉自 wws5201985 51CTO部落格,原文連結:http://blog.51cto.com/yjplxq/960585,如需轉載請自行聯系原作者