awk 實列（成長）

最近看到論壇裡面有幾個不錯的小例子，對于學習awk還是有幫助，在這兒詳細的說一下

一，類似資料庫中的left join查循

[root@krlcgcms01 mytest]# cat a.txt //a.txt
111 aaa
222 bbb
333 cccc
444 ddd
[root@krlcgcms01 mytest]# cat b.txt //b.txt
111 123 456
2 abc cbd
444 rts 786

要求輸出結果是

111,aaa,123,456

444,ddd,rts,786

實作方法1，

[root@krlcgcms01 mytest]# awk 'NR==FNR{a[$1]=$2;}NR!=FNR && a[$1]{print $1","a[$1]","$2","$3}' a.txt b.txt

111,aaa,123,456

444,ddd,rts,786

解釋：當NR和FNR相同時,這就說明在對第一個檔案進行操作，a[$1]=$2表示，建立一個數組，以第一個字段為下标，第二個字段為值。當NR!=FNR時,說明在對第二個檔案進行操作，注意：這個時候的$1和前面的$1不是同一個東西了，前面的$1表示的是a.txt的第一個字段，而後面的$1表示的是b.txt的第一個字段。a[$1]表示以b.txt中第一個字段的為下标的值，如果a[$1]有值的話，說明也存在于a.txt檔案中，這樣就把資料print出來就行了。

實作方法2，

[root@krlcgcms01 mytest]# awk -v OFS=","'NR==FNR{a[$1]=$2;} NR!=FNR && $1 in a { print $1,a[$1],$2,$3}' a.txt b.txt

解釋：-v OFS=","這個是設定輸出時的列分割符，$1 in a這個是b.txt檔案中的第一列的值是不是在數組a的key中，這個對做程式的來說很好了解，各種語言當中都有這樣的用法，或者函數。例如，php中有in_array函數。比較一下，方法1和方法2中的print，方法1我加了雙引号，方法2我卻沒有加，但是輸出的效果卻是一樣的。

二，去除重複的值

[root@krlcgcms01 mytest]# cat repea //檔案repea

a b

c d

e f

b d

b a

f e

1 2

2 1

如果有a,b和b,a這樣的情況，就删除b,a，當然數字也一樣;

awk '{for(i=1;i<=NF;i++)a[i]=$i;asort(a);for(i=1;i<=length(a);i++)printf a[i]"\t";printf "\n"}' repea|sort|uniq

1 2

a b

b d

c d

e f

解釋：for(i=1;i<=NF;i++)a[i]=$i;将每一列中的二個字段放到數組中，asort(a)，這個數組進行排序，後面的代碼是将數組資料輸出來，通sort指令對輸入的資料進行排序，相同資料會排在一起，通過uniq來進行去除相同的列。這種方法比較有通用性，不光适合二列，三列，四列都行。不過效率差了點。

[root@krlcgcms01 mytest]# awk '{a[$0]=$0;if (!($2 OFS $1 in a)) print a[$0] }' repea

[root@krlcgcms01 mytest]# awk '{a[$0];if (!($2 OFS $1 in a)) print }' repea

解釋：方法2的二種寫法，出來的結果是一樣的，a[$0];沒有指派也沒有報錯，為什麼呢？awk在遇到這樣沒有定義的變量時，會給它一個初值。if (!($2 OFS $1 in a))表示返轉字段不在數組a中，這裡所說的在，表示key是不是存在，不是值。print 不寫預設是一行。

實作方法3，

[root@krlcgcms01 mytest]# awk '!a[$1_$2]++&&!a[$2_$1]++' repea

[root@krlcgcms01 mytest]# awk '{if(!a[$1_$2]++&&!a[$2_$1]++)print $0;}' repea

解釋：!a[$1_$2]++&&!a[$2_$1]++等于if(!a[$1_$2]++&&!a[$2_$1]++),對于首次出現的記錄，a[$2_$1]的值是未定義的，由于後面的 ++ 是數學計算，是以a[$2_$1]會被指派成數字0，也是由于 ++ 操作符，會先取值，再計算，從左到右 ++ 運算符的優先級大于！運算符的，是以對于第一行記錄實際上是if(! 0) print $0 ! 是取反，0 是假，! 0 就是真，那麼就會執行後面的 print $0對于後面出現的重複記錄，a[$0] 經過 ++ 的計算已經變為 1、2、3 。。。而 ! 1 ! 2 ! 3 ... 都為假，不會列印。

三，awk的局部變量

這個例子來說明一下，awk怪異的局部變量

[root@krlcgcms01 mytest]# cat sum

1 2

2 3

a b

3 2

4 1

3 r

把都是數字的行，最大的那個數字加起來，第一行是2，第二行是3，每四行是3，第五行是4，總和是12

function max(one,two){
if(one > two){
sum = sum + one;
}else{
sum = sum + two;
}
{if($1~"[0-9]" && $2~"[0-9]") max($1,$2);}
END{print "sum="sum}

在max方法裡面，變量sum是會影響外面的，這裡的sum是全局的。

[root@krlcgcms01 mytest]# awk -f add.sh sum

sum=12

function max(one,two,sum){ //方法中的sum局部變量
{if($1~"[0-9]" && $2~"[0-9]") max($1,$2,sum);}
END{print "sum="sum} //是以為空

sum=

function max(one,two,sum){
return sum //加上return就可以了
{if($1~"[0-9]" && $2~"[0-9]") sum = max($1,$2,sum);}

awk 實列（成長）

繼續閱讀

zabbix監控nginx 狀态

zabbix4.0配置psk加密與監控apache和nginx伺服器

latch session allocation

關于os.popen你可能不知道的

Linux - awk 文本處理工具五

linux文本處理工具——grep、sed、awk用法1.grep2.sed 字元替換3.awk練習：

文本處理工具--sed+awksed行編輯器awk報告生成器awk的進階應用

文本處理工具之grep

shell中的文本處理工具---grep、sed、awk

(轉)增加定時檢測linux占用記憶體，及時清理功能增加定時檢測linux占用記憶體，及時清理功能

Ubuntu下觸摸闆的開啟和關閉一、打開/關閉觸摸闆二、實作自動禁用/啟用觸摸闆參考網址

Exadata 上關于SAS盤的小秘密案例概述問題分析後續思考

linux中的月曆cal

Cygwin 版本的 Curl 安裝，提取，使用筆記Cygwin 版本的 Curl 安裝，提取，使用筆記

HK-2000資料采集儀資料庫操作說明

Nagions記錄監控日志腳本