這是一篇來源于阿裡内部技術論壇的文章

作者已經把這篇文章開放到雲栖社群中供外網通路。Hollis對文章内容做了部分删減，主要删減掉了其中隻有阿裡内部才能使用的工具的介紹，并删減掉部分隻有通過阿裡内網才能通路到的連結。

前言

平時的工作中經常碰到很多疑難問題的處理，在解決問題的同時，有一些工具起到了相當大的作用，在此書寫下來，一是作為筆記，可以讓自己後續忘記了可快速翻閱，二是分享，希望看到此文的同學們可以拿出自己日常覺得幫助很大的工具，大家一起進步。

閑話不多說，開搞。

Linux指令類 tail 最常用的tail -f

tail -300f shopbase.log

grep

grep forest f.txt     
grep forest f.txt cpf.txt 
grep 'log' /home/admin -r -n 
cat f.txt | grep -i shopbase    
grep 'shopbase' /home/admin -r -n --include *.{vm,java} 
grep 'shopbase' /home/admin -r -n --exclude *.{vm,java} 
seq 10 | grep 5 -A 3    
seq 10 | grep 5 -B 3    
seq 10 | grep 5 -C 3    
cat f.txt | grep -c 'SHOPBASE'

awk 1 基礎指令

awk '{print $4,$6}' f.txt
awk '{print NR,$0}' f.txt cpf.txt    
awk '{print FNR,$0}' f.txt cpf.txt
awk '{print FNR,FILENAME,$0}' f.txt cpf.txt
awk '{print FILENAME,"NR="NR,"FNR="FNR,"$"NF"="$NF}' f.txt cpf.txt
echo 1:2:3:4 | awk -F: '{print $1,$2,$3,$4}'

2 比對

awk '/ldb/ {print}' f.txt   
awk '!/ldb/ {print}' f.txt  
awk '/ldb/ && /LISTEN/ {print}' f.txt   
awk '$5 ~ /ldb/ {print}' f.txt

3 内建變量

NR:NR表示從awk開始執行後，按照記錄分隔符讀取的資料次數，預設的記錄分隔符為換行符，是以預設的就是讀取的資料行數，NR可以了解為Number of Record的縮寫。

FNR:在awk處理多個輸入檔案的時候，在處理完第一個檔案後，NR并不會從1開始，而是繼續累加，是以就出現了FNR，每當處理一個新檔案的時候，FNR就從1開始計數，FNR可以了解為File Number of Record。

NF: NF表示目前的記錄被分割的字段的數目，NF可以了解為Number of Field。

find

sudo -u admin find /home/admin /tmp /usr -name \*.log(多個目錄去找)
find . -iname \*.txt(大小寫都比對)
find . -type d(目前目錄下的所有子目錄)
find /usr -type l(目前目錄下所有的符号連結)
find /usr -type l -name "z*" -ls(符号連結的詳細資訊 eg:inode,目錄)
find /home/admin -size +250000k(超過250000k的檔案，當然+改成-就是小于了)
find /home/admin f -perm 777 -exec ls -l {} \; (按照權限查詢檔案)
find /home/admin -atime -1  1天内通路過的檔案
find /home/admin -ctime -1  1天内狀态改變過的檔案    
find /home/admin -mtime -1  1天内修改過的檔案
find /home/admin -amin -1  1分鐘内通路過的檔案
find /home/admin -cmin -1  1分鐘内狀态改變過的檔案    
find /home/admin -mmin -1  1分鐘内修改過的檔案

pgm 批量查詢vm-shopbase滿足條件的日志

pgm -A -f vm-shopbase 'cat /home/admin/shopbase/logs/shopbase.log.2017-01-17|grep 2069861630'

tsar tsar是咱公司自己的采集工具。很好用, 将曆史收集到的資料持久化在磁盤上，是以我們快速來查詢曆史的系統資料。當然實時的應用情況也是可以查詢的啦。大部分機器上都有安裝。

tsar

tsar --live

tsar -d 20161218

tsar --mem
tsar --load
tsar --cpu

top top除了看一些基本資訊之外，剩下的就是配合來查詢vm的各種問題了

ps -ef | grep java
top -H -p pid

獲得線程10進制轉16進制後jstack去抓看這個線程到底在幹啥

其他

netstat -nat|awk  '{print $6}'|sort|uniq -c|sort -rn

排查利器

btrace 首當其沖的要說的是btrace。真是生産環境&預發的排查問題大殺器。簡介什麼的就不說了。直接上代碼幹

1、檢視目前誰調用了ArrayList的add方法，同時隻列印目前ArrayList的size大于500的線程調用棧

@OnMethod(clazz = "java.util.ArrayList", method="add", location = @Location(value = Kind.CALL, clazz = "/.*/", method = "/.*/"))
public static void m(@ProbeClassName String probeClass, @ProbeMethodName String probeMethod, @TargetInstance Object instance, @TargetMethodOrField String method) {
   if(getInt(field("java.util.ArrayList", "size"), instance) > 479){
       println("check who ArrayList.add method:" + probeClass + "#" + probeMethod  + ", method:" + method + ", size:" + getInt(field("java.util.ArrayList", "size"), instance));
       jstack();
       println();
       println("===========================");
       println();
   }
}

2、監控目前服務方法被調用時傳回的值以及請求的參數

@OnMethod(clazz = "com.taobao.sellerhome.transfer.biz.impl.C2CApplyerServiceImpl", method="nav", location = @Location(value = Kind.RETURN))
public static void mt(long userId, int current, int relation, String check, String redirectUrl, @Return AnyType result) {
   println("parameter# userId:" + userId + ", current:" + current + ", relation:" + relation + ", check:" + check + ", redirectUrl:" + redirectUrl + ", result:" + result);
}

更多内容，感興趣的請移步：https://github.com/btraceio/btrace

注意:

經過觀察，1.3.9的release輸出不穩定，要多觸發幾次才能看到正确的結果
正規表達式比對trace類時範圍一定要控制，否則極有可能出現跑滿CPU導緻應用卡死的情況
由于是位元組碼注入的原理，想要應用恢複到正常情況，需要重新開機應用。

Greys 說幾個挺棒的功能(部分功能和btrace重合):

sc -df xxx: 輸出目前類的詳情,包括源碼位置和classloader結構

trace class method: 相當喜歡這個功能! 很早前可以早JProfiler看到這個功能。列印出目前方法調用的耗時情況，細分到每個方法。

javOSize 就說一個功能 classes：通過修改了位元組碼，改變了類的内容，即時生效。是以可以做到快速的在某個地方打個日志看看輸出，缺點是對代碼的侵入性太大。但是如果自己知道自己在幹嘛，的确是不錯的玩意兒。

其他功能Greys和btrace都能很輕易做的到，不說了。

JProfiler 之前判斷許多問題要通過JProfiler，但是現在Greys和btrace基本都能搞定了。再加上出問題的基本上都是生産環境(網絡隔離)，是以基本不怎麼使用了，但是還是要标記一下。官網請移步https://www.ej-technologies.com/products/jprofiler/overview.html

大殺器

eclipseMAT 可作為eclipse的插件，也可作為單獨的程式打開。詳情請移步http://www.eclipse.org/mat/

java三闆斧，噢不對，是七把

jps 我隻用一條指令：

sudo -u admin /opt/taobao/java/bin/jps -mlvV

jstack 普通用法:

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstack 2815

native+java棧:

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstack -m 2815

jinfo 可看系統啟動的參數，如下

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jinfo -flags 2815

jmap 兩個用途

1.檢視堆的情況

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -heap 2815

2.dump

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -dump:live,format=b,file=/tmp/heap2.bin 2815

或者

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -dump:format=b,file=/tmp/heap3.bin 2815

3.看看堆都被誰占了? 再配合zprofiler和btrace，排查問題簡直是如虎添翼

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jmap -histo 2815 | head -10

jstat jstat參數衆多，但是使用一個就夠了

sudo -u admin /opt/taobao/install/ajdk-8_1_1_fp1-b52/bin/jstat -gcutil 2815 1000

jdb 時至今日，jdb也是經常使用的。 jdb可以用來預發debug,假設你預發的java_home是/opt/taobao/java/，遠端調試端口是8000.那麼 sudo -u admin /opt/taobao/java/bin/jdb -attach 8000.

出現以上代表jdb啟動成功。後續可以進行設定斷點進行調試。具體參數可見oracle官方說明http://docs.oracle.com/javase/7/docs/technotes/tools/windows/jdb.html

CHLSDB CHLSDB感覺很多情況下可以看到更好玩的東西，不詳細叙述了。查詢資料聽說jstack和jmap等工具就是基于它的。

sudo -u admin /opt/taobao/java/bin/java -classpath /opt/taobao/java/lib/sa-jdi.jar sun.jvm.hotspot.CLHSDB

更詳細的可見R大此貼 http://rednaxelafx.iteye.com/blog/1847971

VM options

1、你的類到底是從哪個檔案加載進來的？

-XX:+TraceClassLoading
結果形如[Loaded java.lang.invoke.MethodHandleImpl$Lazy from D:\programme\jdk\jdk8U74\jre\lib\rt.jar]

2、應用挂了輸出dump檔案

-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/home/admin/logs/java.hprof

jar包沖突

把這個單獨寫個大标題不過分吧？每個人或多或少都處理過這種煩人的case。我特麼下邊這麼多方案不信就搞不定你?

mvn dependency:tree > ~/dependency.txt

打出所有依賴

mvn dependency:tree -Dverbose -Dincludes=groupId:artifactId

隻打出指定groupId和artifactId的依賴關系

-XX:+TraceClassLoading

vm啟動腳本加入。在tomcat啟動腳本中可見加載類的詳細資訊

-verbose

vm啟動腳本加入。在tomcat啟動腳本中可見加載類的詳細資訊

greys:sc

greys的sc指令也能清晰的看到目前類是從哪裡加載過來的

tomcat-classloader-locate

通過以下url可以獲知目前類是從哪裡加載的 curl http://localhost:8006/classloader/locate?class=org.apache.xerces.xs.XSObjec

其他

dmesg

如果發現自己的java程序悄無聲息的消失了，幾乎沒有留下任何線索，那麼dmesg一發，很有可能有你想要的。

sudo dmesg|grep -i kill|less

去找關鍵字oom_killer。找到的結果類似如下:

[6710782.021013] java invoked oom-killer: gfp_mask=0xd0, order=0, oom_adj=0, oom_scoe_adj=0
[6710782.070639] [] ? oom_kill_process+0x68/0x140 
[6710782.257588] Task in /LXC011175068174 killed as a result of limit of /LXC011175068174 
[6710784.698347] Memory cgroup out of memory: Kill process 215701 (java) score 854 or sacrifice child 
[6710784.707978] Killed process 215701, UID 679, (java) total-vm:11017300kB, anon-rss:7152432kB, file-rss:1232kB

以上表明，對應的java程序被系統的OOM Killer給幹掉了，得分為854. 解釋一下OOM killer（Out-Of-Memory killer），該機制會監控機器的記憶體資源消耗。當機器記憶體耗盡前，該機制會掃描所有的程序（按照一定規則計算，記憶體占用，時間等），挑選出得分最高的程序，然後殺死，進而保護機器。

dmesg日志時間轉換公式: log實際時間=格林威治1970-01-01+(目前時間秒數-系統啟動至今的秒數+dmesg列印的log時間)秒數：

date -d "1970-01-01 UTC `echo "$(date +%s)-$(cat /proc/uptime|cut -f 1 -d' ')+12288812.926194"|bc ` seconds"

剩下的，就是看看為什麼記憶體這麼大，觸發了OOM-Killer了。

新技能get

RateLimiter 想要精細的控制QPS? 比如這樣一個場景，你調用某個接口，對方明确需要你限制你的QPS在400之内你怎麼控制？這個時候RateLimiter就有了用武之地。詳情可移步http://ifeve.com/guava-ratelimite

這是一篇來源于阿裡内部技術論壇的文章

繼續閱讀

關于Gradle配置的小結

Java小案例——随機數猜測随機數猜測

nginx location中斜線的位置的重要性

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的簡單使用

neo4j之cypher使用文檔

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

spark/scala關于【資源檔案】加載方法概述外部檔案加載方案測試資源檔案打包入jar包中小結

mybatis_入門程式Mybatis入門

AOP程式設計_Android優雅權限架構(1)概念基礎，2021金三銀四前言正文大綱正文

Effective Java 8:通用程式設計

OOM三種類型

工廠模式-三種類型

【遞歸】高效率求2的n次幂

win10本地scala和spark安裝安裝scala安裝spark

scala (3) Function 和 Method