转载

发表于 2019年06月10日
浏览 (992)
评论 (0)

记录线上RT规律性增长问题排查

背景

营销中心一个新工程上线，工程上线后，监控平台显示RT水位呈规律性上涨下降

记录线上RT规律性增长问题排查

初次排查

初次看监控图，认为是redis key批量同时失效导致的，因为波峰的相隔时间正好是15分钟，redis的key失效时间也正好设置了这个时间。同时，当时公司运维反馈给我的，该表的sql请求量较大，15分钟调用了 36530次，占了该库性能的80%.

从链路监控中发现部分mysql的RT很高。

记录线上RT规律性增长问题排查

初次问题定位

结合db响应时间，初步定位问题为：缓存穿透后，大量的sql请求量导致RT上升。

但是其实无法解释规律性上涨问题。

于是乎，增加缓存击穿保护，发布上线，发现RT竟然下来了！认为问题已经解决。

记录线上RT规律性增长问题排查

问题再次出现

过了个端午，今天再看RT情况，又恢复第一张图的情况

记录线上RT规律性增长问题排查

问题排查

感觉问题并非当初想象的那样。于是检查服务器情况，发现服务器CPU使用也非常奇葩。记录线上RT规律性增长问题排查

于是使用jstack 排查工程中多线程使用情况，发现无异常。

使用 top -Hp pid 查看CPU使用最频繁的线程

记录线上RT规律性增长问题排查

printf "%x/n" 19838 获取到十六进制值 4d7e

jstack 19832 | grep "4d7e" 查看线程情况

记录线上RT规律性增长问题排查

发现消耗CPU最多的竟然是gc线程

jstat -gc 19832 1000 查看GC情况

记录线上RT规律性增长问题排查

发现大bug了。老年代只配置了64M，线上一直在fullgc，端午三天已经fullgc了19万次多了。。好了，可以找运维小哥哥喝茶去了

结论

线上老年代配置的太小，导致系统一直在fullgc，fullgc的时候STW，阻塞用户线程，一般阻塞时间在100ms左右，导致RT飙升。fullgc后恢复正常，rt恢复，然后再次继续fullgc。

思考

1. 监控平台缺少对jvm监控

2. 对于请求量大的接口，评估缓存击穿风险

3. 问题排查要结合CPU，内存，IO，JVM多方面同时考虑

原文 https://juejin.im/post/5cfdf2d1f265da1ba84a84f9

正文到此结束

所属分类： Java 编程技术

本文标签： JVM mysql 配置营销 js 时间 bug sql jstack https 多线程监控平台线程 http db redis id grep src 缓存服务器 UI IO key
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

配置虚拟站点

浏览(10,046) 评论(20)
修改上传文件权限

浏览(11,472) 评论(18)
VPS 自我监控

浏览(10,267) 评论(23)
OpenVZ VPS 额外支持

浏览(10,350) 评论(17)
openfire数据库安装指南

浏览(19,849) 评论(0)
openfire协议支持指南

浏览(9,271) 评论(18)
openfire定制指南

浏览(11,386) 评论(17)
Caffe 深度学习框架上手教程

浏览(15,583) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(16,373) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(16,218) 评论(0)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG