天天看點

awk 系列Part3:如何使用 awk 按模式篩選文本或字元串awk 系列:如何使用 awk 按模式篩選文本或字元串

awk 系列Part3:如何使用 awk 按模式篩選文本或字元串awk 系列:如何使用 awk 按模式篩選文本或字元串

作為 awk 指令系列的第三部分,這次我們将看一看如何基于使用者定義的特定模式來篩選文本或字元串。

在篩選文本時,有時你可能想根據某個給定的條件或使用一個可被比對的特定模式,去标記某個檔案或數行字元串中的某幾行。使用 awk 來完成這個任務是非常容易的,這也正是 awk 中可能對你有所幫助的幾個功能之一。

讓我們看一看下面這個例子,比方說你有一個寫有你想要購買的食物的購物清單,其名稱為 food_prices.list,它所含有的食物名稱及相應的價格如下所示:

然後,你想使用一個 <code>(*)</code> 符号去标記那些單價大于 $2 的食物,那麼你可以通過運作下面的指令來達到此目的:

awk 系列Part3:如何使用 awk 按模式篩選文本或字元串awk 系列:如何使用 awk 按模式篩選文本或字元串

列印出單價大于 $2 的項目

從上面的輸出你可以看到在含有 芒果(mangoes) 和鳳梨(pineapples)的那行末尾都已經有了一個 <code>(*)</code> 标記。假如你檢查它們的單價,你可以看到它們的單價的确超過了 $2 。

在這個例子中,我們已經使用了兩個模式:

第一個模式: <code>/ *\$[2-9]\.[0-9][0-9] */</code> 将會得到那些含有食物單價大于 $2 的行,

第二個模式: <code>/*\$[0-1]\.[0-9][0-9] */</code> 将查找那些食物單價小于 $2 的那些行。

上面的指令具體做了什麼呢?這個檔案有四個字段,當模式一比對到含有食物單價大于 $2 的行時,它便會輸出所有的四個字段并在該行末尾加上一個 <code>(*)</code> 符号來作為标記。

第二個模式隻是簡單地輸出其他含有食物單價小于 $2 的行,按照它們出現在輸入檔案 food_prices.list 中的樣子。

這樣你就可以使用模式來篩選出那些價格超過 $2 的食物項目,盡管上面的輸出還有些問題,帶有 <code>(*)</code> 符号的那些行并沒有像其他行那樣被格式化輸出,這使得輸出顯得不夠清晰。

我們在 awk 系列的第二部分中也看到了同樣的問題,但我們可以使用下面的兩種方式來解決:

1、可以像下面這樣使用 printf 指令,但這樣使用又長又無聊:

awk 系列Part3:如何使用 awk 按模式篩選文本或字元串awk 系列:如何使用 awk 按模式篩選文本或字元串

使用 Awk 和 Printf 來篩選和輸出項目

2、 使用 <code>$0</code> 字段。Awk 使用變量 0 來存儲整個輸入行。對于上面的問題,這種方式非常友善,并且它還簡單、快速:

awk 系列Part3:如何使用 awk 按模式篩選文本或字元串awk 系列:如何使用 awk 按模式篩選文本或字元串

使用 Awk 和變量來篩選和輸出項目

這就是全部内容了,使用 awk 指令你便可以通過幾種簡單的方法去利用模式比對來篩選文本,幫助你在一個檔案中對文本或字元串的某些行做标記。

希望這篇文章對你有所幫助。記得閱讀這個系列的下一部分,我們将關注在 awk 工具中使用比較運算符。

via: http://www.tecmint.com/awk-filter-text-or-string-using-patterns/

作者:Aaron Kili

譯者:FSSlc

校對:wxy

本文由 LCTT 原創編譯,Linux中國 榮譽推出

繼續閱讀