搞定 Linux Shell 文本處理工具，看完這篇還不夠~

關注「開源Linux」，選擇“設為星标”

回複「學習」，有我為您特别篩選的學習資料~

Linux Shell是一種基本功，由于怪異的文法加之較差的可讀性，通常被Python等腳本代替。既然是基本功，那就需要掌握，畢竟學習Shell腳本的過程中，還是能了解到很多Linux系統的内容。

Linux 腳本大師不是人人都可以達到的，但是用一些簡單的Shell實作一些常見的基本功能還是很有必要的。

下面我介紹 Linux 下使用 Shell 處理文本時最常用的工具：

find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk；

提供的例子和參數都是最常用和最為實用的；

我對shell腳本使用的原則是指令單行書寫，盡量不要超過2行；

如果有更為複雜的任務需求，還是考慮python吧；

1、find 檔案查找

查找txt和pdf檔案

find . \( -name "*.txt" -o -name "*.pdf" \) -print

正則方式查找.txt和pdf

find . -regex  ".*\(\.txt|\.pdf\)$"

-iregex：忽略大小寫的正則

否定參數，查找所有非txt文本

find . ! -name "*.txt" -print

指定搜尋深度

列印出目前目錄的檔案（深度為1）

find . -maxdepth 1 -type f

定制搜尋

按類型搜尋：

find . -type d -print  //隻列出所有目錄

-type f 檔案 / l 符号連結

按時間搜尋：

-atime 通路時間 (機關是天，分鐘機關則是-amin，以下類似）
-mtime 修改時間（内容被修改）
-ctime 變化時間（中繼資料或權限變化）

最近7天被通路過的所有檔案：

find . -atime 7 -type f -print

按大小搜尋：

w字 k M G

尋找大于2k的檔案

find . -type f -size +2k

按權限查找：

find . -type f -perm 644 -print //找具有可執行權限的所有檔案

按使用者查找：

find . -type f -user weber -print// 找使用者weber所擁有的檔案

找到後的後續動作

删除：

删除目前目錄下所有的swp檔案：

find . -type f -name "*.swp" -delete

執行動作（強大的exec）

find . -type f -user root -exec chown weber {} \; //将目前目錄下的所有權變更為weber

注：{}是一個特殊的字元串，對于每一個比對的檔案，{}會被替換成相應的檔案名；

eg：将找到的檔案全都copy到另一個目錄：

find . -type f -mtime +10 -name "*.txt" -exec cp {} OLD \;

結合多個指令

tips: 如果需要後續執行多個指令，可以将多個指令寫成一個腳本。然後 -exec 調用時執行腳本即可；

-exec ./commands.sh {} \;

-print的定界符

預設使用

'\n'

作為檔案的定界符；

-print0 使用’\0’作為檔案的定界符，這樣就可以搜尋包含空格的檔案；

2、grep 文本搜尋

grep match_patten file // 預設通路比對行

常用參數

-o 隻輸出比對的文本行 VS -v 隻輸出沒有比對的文本行
-c 統計檔案中包含文本的次數

grep -c "text" filename

-n 列印比對的行号
-i 搜尋時忽略大小寫
-l 隻列印檔案名

在多級目錄中對文本遞歸搜尋(程式員搜代碼的最愛）：

grep "class" . -R -n

比對多個模式

grep -e "class" -e "vitural" file

grep輸出以\0作為結尾符的檔案名：（-z）

grep "test" file* -lZ| xargs -0 rm

3、xargs 指令行參數轉換

xargs 能夠将輸入資料轉化為特定指令的指令行參數；這樣，可以配合很多指令來組合使用。比如 grep，比如 find；

将多行輸出轉化為單行輸出

cat file.txt| xargs

\n

是多行文本間的定界符

将單行轉化為多行輸出

cat single.txt | xargs -n 3

-n：指定每行顯示的字段數

xargs參數說明

-d 定義定界符（預設為空格多行的定界符為 \n）
-n 指定輸出為多行
-I {} 指定替換字元串，這個字元串在xargs擴充時會被替換掉,用于待執行的指令需要多個參數時

eg：

cat file.txt | xargs -I {} ./command.sh -p {} -1

-0：指定\0為輸入定界符

eg：統計程式行數

find source_dir/ -type f -name "*.cpp" -print0 |xargs -0 wc -l

4、sort 排序

字段說明：

-n 按數字進行排序 VS -d 按字典序進行排序

-r 逆序排序

-k N 指定按第N列排序

eg：

sort -nrk 1 data.txt

sort -bd data // 忽略像空格之類的前導空白字元

5、uniq 消除重複行

消除重複行

sort unsort.txt | uniq

統計各行在檔案中出現的次數

sort unsort.txt | uniq -c

找出重複行

sort unsort.txt | uniq -d

可指定每行中需要比較的重複内容：-s 開始位置 -w 比較字元數

6、用tr進行轉換

通用用法

echo 12345 | tr '0-9' '9876543210' //加解密轉換，替換對應字元cat text| tr '\t' ' '  //制表符轉空格

tr删除字元

cat file | tr -d '0-9' // 删除所有數字

-c 求補集

cat file | tr -c '0-9' //擷取檔案中所有數字cat file | tr -d -c '0-9 \n'  //删除非數字資料

tr壓縮字元

tr -s 壓縮文本中出現的重複字元；最常用于壓縮多餘的空格

cat file | tr -s ' '

字元類

tr中可用各種字元類：
alnum：字母和數字
alpha：字母
digit：數字
space：空白字元
lower：小寫
upper：大寫
cntrl：控制（非可列印）字元
print：可列印字元

使用方法：tr [:class:] [:class:]

eg: tr '[:lower:]' '[:upper:]'

7、cut 按列切分文本

截取檔案的第2列和第4列：

cut -f2,4 filename

去檔案除第3列的所有列：

cut -f3 --complement filename

-d 指定定界符：

cat -f2 -d";" filename

cut 取的範圍

N- 第N個字段到結尾
-M 第1個字段為M

N-M N到M個字段

cut 取的機關

-b 以位元組為機關
-c 以字元為機關
-f 以字段為機關（使用定界符）

eg：

cut -c1-5 file //列印第一到5個字元cut -c-2 file  //列印前2個字元

8、paste 按列拼接文本

将兩個文本按列拼接到一起;

cat file112cat file2colinbook

paste file1 file21 colin2 book

預設的定界符是制表符，可以用-d指明定界符

paste file1 file2 -d “,”

1,colin

2,book

9、wc 統計行和字元的工具

wc -l file // 統計行數

wc -w file // 統計單詞數

wc -c file // 統計字元數

10、sed 文本替換利器

首處替換

sed 's/text/replace_text/' file   //替換每一行的第一處比對的text

全局替換

sed 's/text/replace_text/g' file

預設替換後，輸出替換後的内容，如果需要直接替換原檔案,使用-i：

sed -i 's/text/repalce_text/g' file

移除空白行：

sed '/^$/d' file

變量轉換，已比對的字元串通過标記&來引用。

echo this is en example | sed 's/\w+/[&]/g'$>[this]  [is] [en] [example]

子串比對标記
第一個比對的括号内容使用标記 \1 來引用

sed 's/hello\([0-9]\)/\1/'

雙引号求值

sed 通常用單引号來引用；也可使用雙引号，使用雙引号後，雙引号會對表達式求值：

sed 's/$var/HLLOE/'

當使用雙引号時，我們可以在sed樣式和替換字元串中指定變量；

eg:p=pattenr=replacedecho "line con a patten" | sed "s/$p/$r/g"$>line con a replaced

其它示例

字元串插入字元：将文本中每行内容（PEKSHA）轉換為 PEK/SHA

sed 's/^.\{3\}/&\//g' file

11、awk 資料流處理工具

awk腳本結構

awk ‘ BEGIN{ statements } statements2 END{ statements } ‘

工作方式

執行begin中語句塊；
從檔案或 stdin 中讀入一行，然後執行 statements2，重複這個過程，直到檔案全部被讀取完畢；
執行end語句塊；

print 列印目前行

使用不帶參數的print時，會列印目前行;

echo -e "line1\nline2" | awk 'BEGIN{print "start"} {print } END{ print "End" }'

print 以逗号分割時，參數以空格定界;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \print var1, var2 , var3; }'$>v1 V2 v3

使用-拼接符的方式（””作為拼接符）;

echo | awk ' {var1 = "v1" ; var2 = "V2"; var3="v3"; \
print var1"-"var2"-"var3; }'$>v1-V2-v3

特殊變量：NR NF $0 $1 $2

NR:表示記錄數量，在執行過程中對應目前行号；

NF:表示字段數量，在執行過程中對應目前行的字段數；

$0:這個變量包含執行過程中目前行的文本内容；

$1:第一個字段的文本内容；

$2:第二個字段的文本内容；

echo -e “line1 f2 f3\n line2 \n line 3” | awk ‘{print NR”:”1”-“$2}’

列印每一行的第二和第三個字段：

awk '{print $2, $3}' file

統計檔案的行數：

awk ' END {print NR}' file

累加每一行的第一個字段：

echo -e "1\n 2\n 3\n 4\n" | awk 'BEGIN{num = 0 ;print "begin";} {sum += $1;} END {print "=="; print sum }'

傳遞外部變量

var=1000echo | awk '{print vara}' vara=$var #  輸入來自stdinawk '{print vara}' vara=$var file # 輸入來自檔案用樣式對awk處理的行進行過濾

awk ‘NR < 5’ #行号小于5

awk ‘NR==1,NR==4 {print}’ file #行号等于1和4的列印出來

awk ‘/linux/‘ #包含linux文本的行（可以用正規表達式來指定，超級強大）

awk ‘!/linux/‘ #不包含linux文本的行

設定定界符

使用-F來設定定界符（預設為空格）

awk -F: ‘{print $NF}’ /etc/passwd

讀取指令輸出

使用getline，将外部shell指令的輸出讀入到變量cmdout中；

echo | awk '{"grep root /etc/passwd" | getline cmdout; print cmdout }'

在awk中使用循環

for(i=0;i<10;i++){print $i;}

for(i in array){print array[i];}

eg:

以逆序的形式列印行：(tac指令的實作）

seq 9| \awk '{lifo[NR] = $0; lno=NR} \END{ for(;lno>-1;lno--){print lifo[lno];}} '

awk實作head、tail指令

head:

awk 'NR<=10{print}' filename

tail：

awk '{buffer[NR%10] = $0;} END{for(i=0;i<11;i++){ \print buffer[i %10]} } ' filename

列印指定列

awk方式實作：

ls -lrt | awk '{print $6}'

cut方式實作

ls -lrt | cut -f6

列印指定文本區域

确定行号

seq 100| awk 'NR==4,NR==6{print}'

确定文本

列印處于start_pattern 和end_pattern之間的文本；

awk '/start_pattern/, /end_pattern/' filename

eg：

seq 100 | awk '/13/,/15/'cat /etc/passwd| awk '/mai.*mail/,/news.*news/'

awk常用内建函數

index(string,search_string):傳回search_string在string中出現的位置
sub(regex,replacement_str,string)：将正則比對到的第一處内容替換為replacement_str;
match(regex,string):檢查正規表達式是否能夠比對字元串；
length(string)：傳回字元串長度

echo | awk '{"grep root /etc/passwd" | getline cmdout; print length(cmdout) }'

printf 類似c語言中的printf，對輸出進行格式化

eg：

seq 10 | awk '{printf "->%4s\n", $1}'

12、疊代檔案中的行、單詞和字元

1. 疊代檔案中的每一行

while 循環法

while read line;doecho $line;done < file.txt改成子shell:cat file.txt | (while read line;do echo $line;done)

awk法：

cat file.txt| awk ‘{print}’

2.疊代一行中的每一個單詞

for word in $line;do echo $word;done

3. 疊代每一個字元

${string:start_pos:num_of_chars}：從字元串中提取一個字元；(bash文本切片）

${#word}:傳回變量word的長度

for((i=0;i<${#word};i++))doecho ${word:i:1);done

來自：大CC

連結：http://www.cnblogs.com/me115/p/3427319.html

往期推薦

CloudLinux為CentOS 8使用者提供支援至2025年底

HAProxy容器化實踐

60,000 毫秒内對 Linux 進行性能診斷

萬字長文：Kubernetes 建立 Pod 時，背後到底發生了什麼？

幹貨｜最全的Tomcat漏洞複現

Windows Server 2022 LTSC 正式版官方鏡像下載下傳 - 微軟伺服器系統原版 ISO

Cache工作原理，Cache一緻性，你想知道的都在這裡

從容器到容器雲，什麼才是 Kubernetes 的本質？

Kubernetes 核心元件原理梳理，運維必備~

Nginx 常用配置清單分享

有收獲，點個在看

搞定 Linux Shell 文本處理工具，看完這篇還不夠~

1、find 檔案查找

2、grep 文本搜尋

3、xargs 指令行參數轉換

4、sort 排序

5、uniq 消除重複行

6、用tr進行轉換

7、cut 按列切分文本

8、paste 按列拼接文本

9、wc 統計行和字元的工具

10、sed 文本替換利器

11、awk 資料流處理工具

12、疊代檔案中的行、單詞和字元

繼續閱讀

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

samba伺服器的功能

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

【Linux】UDP廣播封包接收速率問題

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

Linux裝置模型（中）之上層容器

scala (3) Function 和 Method

PowerPC平台 Linux移植三