天天看点

CPU占用高

前天下午,服务器突然没响应,日志出现内存溢出异常,最后确认CPU占用过高导致出现问题,使用jvisualvm来监控jvm,也无法连接上服务器,业务高峰期情况下,只能先启用备用服务器,以便检查,结果备用服务器没撑过10分钟,也出现同样现象,实际在线用户不多,按理并发量也不大,而且以前这个量也承受过来,在没办法情况下,只能再次启用多台备用服务器,然后一个人监控,负责kill,restart。留一台给我们做分析(在测试环境压测,无法重现改现象),jvisualvm监视视图,gc占用CPU并不高(感觉这个不准确),但整个堆内存将近封顶,之后只能尝试逐渐加上打印gc日志(-XX:+HeapDumpOnOutOfMemoryError -XX:HeapDumpPath=/tmp/\heapdump.hprof -Xloggc:/tmp/gc.log -XX:+PrintGCDetails),并且利用jstack打印线程栈信息(见:http://lippeng.iteye.com/blog/2001254)

CPU占用高

 只后查看gc日志和jstackfile文件,从gc日志发现,都在做full gc,每次gc后,新生代释放一点点内存,年老代没变,这样看来的确有东西一直在做死循环运算,并不断产生出对象,然后到达full gc临界值,触发full gc,释放的空间又马上被新产生的对象塞满;

CPU占用高

从jstackfile文件,依照定位查找占用CPU高的线程

CPU占用高

 检查代码,的确发现递归算法,最后确认数据存在问题,导致根据树型数据,获取所有下级节点出现死循环(有个节点,上级节点是其自身导致)。

因树形数据,是第三方准备,真TMD坑爹。

自己后来本地模拟改现象,发现jvisualvm监视视图对于CPU占用,还是蛮准确的,不知道为什么当时生产不准确:

CPU占用高

如何定位进程中哪个线程占用CPU高,参见:http://www.iteye.com/topic/1132321

参考:

https://gist.github.com/rednaxelafx/1081908#file_notes.md

一篇JVM监控&调优参数好文:http://www.cnblogs.com/zhguang/p/3342039.html,摘选:

调优方法

一切都是为了这一步,调优,在调优之前,我们需要记住下面的原则:

  1. 多数的Java应用不需要在服务器上进行GC优化;
  2. 多数导致GC问题的Java应用,都不是因为我们参数设置错误,而是代码问题;
  3. 在应用上线之前,先考虑将机器的JVM参数设置到最优(最适合);
  4. 减少创建对象的数量;
  5. 减少使用全局变量和大对象;
  6. GC优化是到最后不得已才采用的手段;
  7. 在实际使用中,分析GC情况优化代码比优化GC参数要多得多;

GC优化的目的有两个(http://www.360doc.com/content/13/0305/10/15643_269388816.shtml):

  • 将转移到老年代的对象数量降低到最小;
  • 减少full GC的执行时间;

为了达到上面的目的,一般地,你需要做的事情有:

  • 减少使用全局变量和大对象;
  • 调整新生代的大小到最合适;
  • 设置老年代的大小为最合适;
  • 选择合适的GC收集器;

在上面的4条方法中,用了几个“合适”,那究竟什么才算合适,一般的,请参考上面“收集器搭配”和“启动内存分配”两节中的建议。但这些建议不是万能的,需要根据您的机器和应用情况进行发展和变化,实际操作中,可以将两台机器分别设置成不同的GC参数,并且进行对比,选用那些确实提高了性能或减少了GC时间的参数。

真正熟练的使用GC调优,是建立在多次进行GC监控和调优的实战经验上的,进行监控和调优的一般步骤为:

1,监控GC的状态

使用各种JVM工具,查看当前日志,分析当前JVM参数设置,并且分析当前堆内存快照和gc日志,根据实际的各区域内存划分和GC执行时间,觉得是否进行优化;

2,分析结果,判断是否需要优化

如果各项参数设置合理,系统没有超时日志出现,GC频率不高,GC耗时不高,那么没有必要进行GC优化;如果GC时间超过1-3秒,或者频繁GC,则必须优化;

注:如果满足下面的指标,则一般不需要进行GC:

  • Minor GC执行时间不到50ms;
  • Minor GC执行不频繁,约10秒一次;
  • Full GC执行时间不到1s;
  • Full GC执行频率不算频繁,不低于10分钟1次;

3,调整GC类型和内存分配

如果内存分配过大或过小,或者采用的GC收集器比较慢,则应该优先调整这些参数,并且先找1台或几台机器进行beta,然后比较优化过的机器和没有优化的机器的性能对比,并有针对性的做出最后选择;

4,不断的分析和调整

通过不断的试验和试错,分析并找到最合适的参数

5,全面应用参数

如果找到了最合适的参数,则将这些参数应用到所有服务器,并进行后续跟踪。