1.AWK
(1)擷取demo.csv檔案中第三列資料為2的資料并輸出到1.csv
cat demo.csv|awk -F "," '$3=="2" {print $1","$2","1}' >>1.csv
(2)統計檔案第三列為1的條數
hdfs dfs -cat /user/user-test_demo/Demo/demo.csv | awk -F "," '{print $3}' |grep 1|wc -l
(3)統計滿足指定條件的第四列列之和
cat demo.csv|grep ,80855[0-9][0-9],|awk -F "," -v sum=0 '{sum+=$4} END{print sum}'
(4)if判斷,demo.csv檔案第二列大于5的資料輸出出來($0表示全部輸出)
cat demo.csv|awk -F, '{if ($3=1) print $0}'
(5)for循環
awk 'BEGIN{for(i=1;i<=5;++i) print i}'
(6)while循環
awk 'BEGIN {i=1;while(i<6){print i; ++i}}'
2.SED
(1)批量替換
sed -i 's/,2.000000000000000000000000000000/,2/g' 1.csv
(2)讀取1到500的資料
sed -n '1,500p' demo.csv
3.yarn指令
(1)檢視yarn 日志
yarn top -queues 隊列名
(1)檢視yarn 日志
yarn logs -applicationId ID号
yarn logs -applicationId application_1624327727087_151007
(3)殺死某個程式
yarn application -kill ID号
yarn application -kill application_1624327727087_31469
4.zip
壓縮檔案
zip -r 壓縮後的檔案名.要壓縮的檔案
zip -r Demo.zip *_demo20210620.csv
chmod -R 777 Demo.zip
5.tail
tail -f demo.log