天天看點

linux awk

linux awk  

2008-11-17 14:59:52|  分類: Linux/Unix |字号 訂閱

linux awk

第一個 awk

讓我們繼續,開始使用 awk,以了解其工作原理。在指令行中輸入以下指令:

$ awk '{ print }' /etc/passwd

您将會見到 /etc/passwd 檔案的内容出現在眼前。現在,解釋 awk 做了些什麼。調用 awk 時,我們指定 /etc/passwd 作為輸入檔案。執行 awk 時,它依次對 /etc/passwd 中的每一行執行 print 指令。所有輸出都發送到 stdout,所得到的結果與與執行catting /etc/passwd完全相同。

現在,解釋 { print } 代碼塊。在 awk 中,花括号用于将幾塊代碼組合到一起,這一點類似于 C 語言。在代碼塊中隻有一條 print 指令。在 awk 中,如果隻出現 print 指令,那麼将列印目前行的全部内容。

這裡是另一個 awk 示例,它的作用與上例完全相同:

$ awk '{ print $0 }' /etc/passwd

在 awk 中, $0 變量表示整個目前行,是以 print 和 print $0 的作用完全一樣。

如果您願意,可以建立一個 awk 程式,讓它輸出與輸入資料完全無關的資料。以下是一個示例:

$ awk '{ print "" }' /etc/passwd

隻要将 "" 字元串傳遞給 print 指令,它就會列印空白行。如果測試該腳本,将會發現對于 /etc/passwd 檔案中的每一行,awk 都輸出一個空白行。再次說明, awk 對輸入檔案中的每一行都執行這個腳本。以下是另一個示例:

$ awk '{ print "hiya" }' /etc/passwd

運作這個腳本将在您的螢幕上寫滿 hiya。:)

=+=+=+=+=+=+=+=

多個字段

awk 非常善于處理分成多個邏輯字段的文本,而且讓您可以毫不費力地引用 awk 腳本中每個獨立的字段。以下腳本将列印出您的系統上所有使用者帳戶的清單:

$ awk -F":" '{ print $1 }' /etc/passwd

上例中,在調用 awk 時,使用 -F 選項來指定 ":" 作為字段分隔符。awk 處理 print $1 指令時,它會列印出在輸入檔案中每一行中出現的第一個字段。以下是另一個示例:

$ awk -F":" '{ print $1 $3 }' /etc/passwd

以下是該腳本輸出的摘錄:

halt7

operator11

root0

shutdown6

sync5

bin1

....etc.

如您所見,awk 列印出 /etc/passwd 檔案的第一和第三個字段,它們正好分别是使用者名和使用者辨別字段。現在,當腳本運作時,它并不理想 -- 在兩個輸出字段之間沒有空格!如果習慣于使用 bash 或 python 進行程式設計,那麼您會指望 print $1 $3 指令在兩個字段之間插入空格。然而,當兩個字元串在 awk 程式中彼此相鄰時,awk 會連接配接它們但不在它們之間添加空格。以下指令會在這兩個字段中插入空格:

$ awk -F":" '{ print $1 " " $3 }' /etc/passwd

以這種方式調用 print 時,它将連接配接 $1 、" " 和 $3 ,建立可讀的輸出。當然,如果需要的話,我們還可以插入一些文本标簽:

$ awk -F":" '{ print "username: " $1 "\t\tuid:" $3" }' /etc/passwd

這将産生以下輸出:

username: halt          uid:7

username: operator      uid:11

username: root          uid:0

username: shutdown      uid:6

username: sync          uid:5

username: bin           uid:1

外部腳本

将腳本作為指令行自變量傳遞給 awk 對于小的單行程式來說是非常簡單的,而對于多行程式,它就比較複雜。您肯定想要在外部檔案中撰寫腳本。然後可以向 awk 傳遞 -f 選項,以向它提供此腳本檔案:

$ awk -f myscript.awk myfile.in

将腳本放入文本檔案還可以讓您使用附加 awk 功能。例如,這個多行腳本與前面的單行腳本的作用相同,它們都列印出 /etc/passwd 中每一行的第一個字段:

BEGIN {

    FS=":"

}

{ print $1 }

這兩個方法的差别在于如何設定字段分隔符。在這個腳本中,字段分隔符在代碼自身中指定(通過設定 FS 變量),而在前一個示例中,通過在指令行上向 awk 傳遞 -F":" 選項來設定 FS。通常,最好在腳本自身中設定字段分隔符,隻是因為這表示您可以少輸入一個指令行自變量。我們将在本文的後面詳細讨論 FS 變量。

BEGIN 和 END 塊

通常,對于每個輸入行,awk 都會執行每個腳本代碼塊一次。然而,在許多程式設計情況中,可能需要在 awk 開始處理輸入檔案中的文本之 前 執行初始化代碼。對于這種情況,awk 允許您定義一個 BEGIN 塊。我們在前一個示例中使用了 BEGIN 塊。因為 awk 在開始處理輸入檔案之前會執行 BEGIN 塊,是以它是初始化 FS(字段分隔符)變量、列印頁眉或初始化其它在程式中以後會引用的全局變量的極佳位置。

awk 還提供了另一個特殊塊,叫作 END 塊。awk 在處理了輸入檔案中的所有行之後執行這個塊。通常,END 塊用于執行最終計算或列印應該出現在輸出流結尾的摘要資訊。

規則表達式和塊

awk 允許使用規則表達式,根據規則表達式是否比對目前行來選擇執行獨立代碼塊。以下示例腳本隻輸出包含字元序列 foo 的那些行:

/foo/ { print }

當然,可以使用更複雜的規則表達式。以下腳本将隻列印包含浮點數的行:

/[0-9]+\.[0-9]*/ { print }

表達式和塊

還有許多其它方法可以選擇執行代碼塊。我們可以将任意一種布爾表達式放在一個代碼塊之前,以控制何時執行某特定塊。僅當對前面的布爾表達式求值為真 時,awk 才執行代碼塊。以下示例腳本輸出将輸出其第一個字段等于 fred 的所有行中的第三個字段。如果目前行的第一個字段不等于 fred ,awk 将繼續處理檔案而不對目前行執行 print 語句:

$1 == "fred" { print $3 }

awk 提供了完整的比較運算符集合,包括 "=="、"<"、">"、"<="、">=" 和 "!="。另外,awk 還提供了 "~" 和 "!~" 運算符,它們分别表示“比對”和“不比對”。它們的用法是在運算符左邊指定變量,在右邊指定規則表達式。如果某一行的第五個字段包含字元序列 root ,那麼以下示例将隻列印這一行中的第三個字段:

$5 ~ /root/ { print $3 }

條件語句

awk 還提供了非常好的類似于 C 語言的 if 語句。如果您願意,可以使用 if 語句重寫前一個腳本:

{

    if ( $5 ~ /root/ ) {

        print $3

    }

這兩個腳本的功能完全一樣。第一個示例中,布爾表達式放在代碼塊外面。而在第二個示例中,将對每一個輸入行執行代碼塊,而且我們使用 if 語句來選擇執行 print 指令。這兩個方法都可以使用,可以選擇最适合腳本其它部分的一種方法。

以下是更複雜的 awk if 語句示例。可以看到,盡管使用了複雜、嵌套的條件語句, if 語句看上去仍與相應的 C 語言 if 語句一樣:

{

    if ( $1 == "foo" ) {

        if ( $2 == "foo" ) {

            print "uno"

        } else {

            print "one"

        }

    } else if ($1 == "bar" ) {

        print "two"

    } else {

        print "three"

使用 if 語句還可以将代碼:

! /matchme/ { print $1 $3 $4 }

轉換成:

{  

    if ( $0 !~ /matchme/ ) {

        print $1 $3 $4

這兩個腳本都隻輸出 不 包含 matchme 字元序列的那些行。此外,還可以選擇最适合您的代碼的方法。它們的功能完全相同。

awk 還允許使用布爾運算符 "||"(邏輯與)和 "&&"(邏輯或),以便建立更複雜的布爾表達式:

( $1 == "foo" ) && ( $2 == "bar" ) { print }

這個示例隻列印第一個字段等于 foo 且 第二個字段等于 bar 的那些行。

數值變量!

至今,我們不是列印字元串、整行就是特定字段。然而,awk 還允許我們執行整數和浮點運算。通過使用數學表達式,可以很友善地編寫計算檔案中空白行數量的腳本。以下就是這樣一個腳本:

BEGIN   { x=0 }

/^$/    { x=x+1 }

END     { print "I found " x " blank lines. :)" }

在 BEGIN 塊中,将整數變量 x 初始化成零。然後,awk 每次遇到空白行時,awk 将執行 x=x+1 語句,遞增 x 。處理完所有行之後,執行 END 塊,awk 将列印出最終摘要,指出它找到的空白行數量。

字元串化變量

awk 的優點之一就是“簡單和字元串化”。我認為 awk 變量“字元串化”是因為所有 awk 變量在内部都是按字元串形式存儲的。同時,awk 變量是“簡單的”,因為可以對它執行數學操作,且隻要變量包含有效數字字元串,awk 會自動處理字元串到數字的轉換步驟。要了解我的觀點,請研究以下這個示例:

x="1.01"

# We just set x to contain the *string* "1.01"

x=x+1

# We just added one to a *string*

print x

# Incidentally, these are comments :)

awk 将輸出:

2.01

有趣吧!雖然将字元串值 1.01 指派給變量 x ,我們仍然可以對它加一。但在 bash 和 python 中卻不能這樣做。首先,bash 不支援浮點運算。而且,如果 bash 有“字元串化”變量,它們并不“簡單”;要執行任何數學操作,bash 要求我們将數字放到醜陋的 $( ) ) 結構中。如果使用 python,則必須在對 1.01 字元串執行任何數學運算之前,将它轉換成浮點值。雖然這并不困難,但它仍是附加的步驟。如果使用 awk,它是全自動的,而那會使我們的代碼又好又整潔。如果想要對每個輸入行的第一個字段乘方并加一,可以使用以下腳本:

{ print ($1^2)+1 }

如果做一個小實驗,就可以發現如果某個特定變量不包含有效數字,awk 在對數學表達式求值時會将該變量當作數字零處理。

衆多運算符

awk 的另一個優點是它有完整的數學運算符集合。除了标準的加、減、乘、除,awk 還允許使用前面示範過的指數運算符 "^"、模(餘數)運算符 "%" 和其它許多從 C 語言中借入的易于使用的指派操作符。

這些運算符包括前後加減( i++ 、 --foo )、加/減/乘/除指派運算符( a+=3 、 b*=2 、 c/=2.2 、 d-=6.2 )。不僅如此 -- 我們還有易于使用的模/指數指派運算符( a^=2 、 b%=4 )。

字段分隔符

awk 有它自己的特殊變量集合。其中一些允許調整 awk 的運作方式,而其它變量可以被讀取以收集關于輸入的有用資訊。我們已經接觸過這些特殊變量中的一個,FS。前面已經提到過,這個變量讓您可以設定 awk 要查找的字段之間的字元序列。我們使用 /etc/passwd 作為輸入時,将 FS 設定成 ":"。當這樣做有問題時,我們還可以更靈活地使用 FS。

FS 值并沒有被限制為單一字元;可以通過指定任意長度的字元模式,将它設定成規則表達式。如果正在處理由一個或多個 tab 分隔的字段,您可能希望按以下方式設定 FS:

FS="\t+"

以上示例中,我們使用特殊 "+" 規則表達式字元,它表示“一個或多個前一字元”。

如果字段由空格分隔(一個或多個空格或 tab),您可能想要将 FS 設定成以下規則表達式:

FS="[[:space:]+]"

這個指派表達式也有問題,它并非必要。為什麼?因為預設情況下,FS 設定成單一空格字元,awk 将這解釋成表示“一個或多個空格或 tab”。在這個特殊示例中,預設 FS 設定恰恰是您最想要的!

複雜的規則表達式也不成問題。即使您的記錄由單詞 "foo" 分隔,後面跟着三個數字,以下規則表達式仍允許對資料進行正确的分析:

FS="foo[0-9][0-9][0-9]"

字段數量

接着我們要讨論的兩個變量通常并不是需要指派的,而是用來讀取以擷取關于輸入的有用資訊。第一個是 NF 變量,也叫做“字段數量”變量。awk 會自動将該變量設定成目前記錄中的字段數量。可以使用 NF 變量來隻顯示某些輸入行:

NF == 3 { print "this particular record has three fields: " $0 }

當然,也可以在條件語句中使用 NF 變量,如下:

    if ( NF > 2 ) {

        print $1 " " $2 ":" $3

記錄号

記錄号 (NR) 是另一個友善的變量。它始終包含目前記錄的編号(awk 将第一個記錄算作記錄号 1)。迄今為止,我們已經處理了每一行包含一個記錄的輸入檔案。對于這些情況,NR 還會告訴您目前行号。然而,當我們在本系列以後部分中開始處理多行記錄時,就不會再有這種情況,是以要注意!可以象使用 NF 變量一樣使用 NR 來隻列印某些輸入行:

(NR < 10 ) || (NR > 100) { print "We are on record number 1-9 or 101+" }

上一篇: linux-awk
下一篇: Linux awk 指令

繼續閱讀