- 切割檔案
- 内置變量的使用
- 正則比對
- 類sql功能
作為一個大資料開發,先來一個我比較喜歡的面試題。
對于下面的nginx日志access.log,用腳本分析出通路ip的Top 10。
其實這個題不難,但是考察了幾個常用的shell 指令,awk、uniq、sort、head,我覺得對于做大資料開發、運維、數倉等來說都是應該必備的。
2018-11-20T23:37:40+08:00 119.15.90.30 - "GET /free.php?proxy=out_hp&sort=&page=1 HTTP/1.1" "/free.php" - 200 0.156 362 6849/7213 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - - - "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E; LBBROWSER)"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /partner.php HTTP/1.1" "/partner.php" - 200 0.016 457 6534/6956 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://blog.csdn.net/ithomer/article/details/6566739 - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/bootstrap.min.css HTTP/1.1" "/css/bootstrap.min.css" - 200 0.045 398 19402/19757 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
2018-11-20T23:37:44+08:00 117.30.95.62 - "GET /css/hint.min.css HTTP/1.1" "/css/hint.min.css" - 200 0.000 393 1635/1989 TLSv1.2 ECDHE-RSA-AES128-GCM-SHA256 - https://proxy.mimvp.com/partner.php - "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
複制
來上答案
cat access.log | awk '{print $2}'| uniq -c | sort -k1 -nr| head -10
複制
其實這個問題還有很多變種,比如除了腳本,用你最熟悉的語言寫出來,還有如果檔案過大,超過了記憶體限制,怎麼處理。不過這些都是題外話了,我們今天主要講一下awk在工作中的一些簡單的應用。

其實awk的功能非常強大,不過今天我們主要來講講在我們的工作中比較常用的awk用法。
awk '{[pattern] action}' {filenames}
複制
切割檔案
-F 指定拆分檔案的分隔符,預設是空格或者 \t 比如上面的日志我們想擷取第二列的ip位址,我們可以這樣寫
awk -F ' ' '{print $2}' access.log
複制
空格我們是可以不用寫的,我這裡寫出來做一個示範。
其實還有一種特殊字元,比如hive中預設分隔符是0x01,這種的使用awk怎麼寫呢?
awk -F '\\001' '{ print $1 }' abcd.txt
複制
内置變量的使用
- $0 用于列印出整行的字段.
- $n 由 -F 參數指定的分隔符切割之後,$n用于列印出來第幾個字段,索引從1開始
- NF 每行資料切分之後,有多少列,比如我們可以用print $NF 來列印出最後一列
有一些時候我們可以用awk 截取其中的某幾個字段拼接出來我們想要的一些語句。
比如我們想截取上面access.log裡面的ip字段,然後生成一些sql,插入到資料庫。
awk '{print "insert into mytable(ip) values('\''"$2"'\'');"}' access.log > /tmp/ip.sql
複制
有人會問,這種場景一般什麼時候會用呢,比如你有一萬條或者更多的資料,你完全可以寫一個sql來插入,但是如果是數量太多的話,一次性寫入太多資料,會導緻鎖表,這個時候其他人就沒法插入了,如果是線上的生産環境就更不允許了,是以對于一些類似的操作,我們可以拆分出多個sql來一個個的執行,這樣單個sql鎖表的時間就會減少,避免長時間鎖表帶來的資料庫不可用。
正則比對
有時候我們隻想列印出來一些我們想要的列,我們可以通過正則比對來做。
比如我們想列印出來上面的access.log中117開頭的ip,可以這樣做.
awk '$2 ~ /^117/ {print $2}' access.log
複制
類sql功能
其實awk還可以幫我們實作一些簡單的類似sql的功能,我們也簡單說一下。
比如我們有一個下面的學生表
id 班級 姓名
id class name
1 1班 張三
2 2班 李四
3 1班 王五
4 3班 趙六
比如我們想統計每個班級有多少同學,可以使用如下指令
awk '{a[$2]++} END {for(i in a){print i"人數 : "a[i]}}' student.txt
複制
我們定義了一個類似map的變量a,key是班級名稱,也就是第二列,value值是每個班級對應的人數,最後通過一個for循環輸出。
其實awk還有非常多、非常強大的功能,但是對于我們工作中我覺得用處并不大,這裡就不着重介紹了,感興趣的朋友可以網上找一些相關的資料。