转载

发表于 2019年09月20日
浏览 (987)
评论 (0)

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

前言

最近系统（基于SpringCloud+K8s）上线，运维团队早上8点左右在群里反馈，系统登录无反应！我的第一反应是Mysql数据库扛不住了。

排查问题也是一波三折，有网络问题，也有mysql读写分离后数据库参数优化问题。

问题回顾

1、运维团队早上8点左右在群里反馈，系统登录无反应。

2、DevOps团队通过查看Kibana日志，发现ELK、k8s集群、Redis、Mongodb、Nigix、文件服务器全部报： ”Connect Unknown Error“，惊出一身冷汗。。。

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

心里嘀咕难道K8s容器也挂了？那还怎么玩？

3、查看监控短信，连续收到数据库读写分离Master-Slave警告信息

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

问题定位

1、Connect Unknown Error

经过从k8s团队确认，在早上8点左右出现了网络中断，持续了大概1分钟左右，导致k8s平台剔除响应超时的微服务节点，同时不断的启动新的容器。通过日志分析，8点半左右容器平台恢复正常，但是前台页面查询数据很慢（后来定位是Mysql数据库服务器CPU占用92%，导致数据库服务器处理应用请求很慢）。

2、Mysql读写分离Master-Slave警告信息

MHA架构

Mysql读写分离是采用MHA架构，一主两从（Master-Slave）。
Master负责数据的写操作，同时通过binlog日志同步到两个Slave从库，从库负责应用程序的查询操作。

在报Connect Unknown Error异常后，我们检查了Mysql服务器，发现Master节点CPU占用92%（应用层读写请求全部路由到了Master节点原因导致），而两个Slave节点全部处于空闲状态，并且主从数据不同步了。

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

3、数据库DBA通过查看mysql的show processlist命令，发现有大量的“create sort index（排序索引）”Sql语句（约36个）

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

经排查发现有个cms_article表有几百万的数据，客户端分页查询请求，虽然只取10条数据行，但是实际查询了几百万行数据，而且要在数据库内存中进行了几百万数据内存排序。所以出现了大量的create sort index排序索引。而且频繁执行Create Sort Index 会造成Mysql占满服务器CPU，导致服务器请求无响应，甚至假死状态！

解决办法

1、Connect Unknown Error

k8s平台自动剔除响应超时的微服务节点，同时启动新的容器，直至恢复到故障前的容器节点水平，依靠k8s平台自我修复。

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

2、Mysql读写分离Master-Slave警告信息

恢复步骤

1、重启Master-Slave节点，应用层读写请求正常，但是主从数据还是不同步，经定位是mysql同步线程Slave_IO_Running和Slave_SQL_Running都为No。

2、晚上重启Slave_IO_Running和Slave_SQL_Running线程

只有Slave_IO_Running和Slave_SQL_Running都为yes，则表示同步成功。

微服务架构下，Mysql读写分离后，数据库CPU飙升卡壳问题解析

3、数据库DBA通过查看mysql的show processlist命令，发现有大量的“create sort index（排序索引）”Sql语句（约36个）

innodb_buffer_pool_size从500M调整为300G（服务器共500G内存）

innodb_buffer_pool_size

用于缓存索引和数据的内存大小, 这个当然是越多越好, 数据读写在内存中非常快, 减少了对磁盘的读写。

当数据提交或满足检查点条件后才一次性将内存数据刷新到磁盘中。然而内存还有操作系统或数据库其他进程使用, 一般设置 buffer pool 大小为总内存的 1/5 至 1/4。若设置不当, 内存使用可能浪费或者使用过多。

对于繁忙的服务器, buffer pool 将划分为多个实例以提高系统并发性, 减少线程间读写缓存的争用。

buffer pool 的大小首先受 innodb_buffer_pool_instances 影响, 当然影响较小。

Mysql性能调优总结

预计44W用户峰值在线人数 5万左右。

1、innodb_buffer_pool_size=500M

太小，严重影响数据库性能。服务器共500G内存，但只给mysql缓冲池分配了500M，非常影响数据库性能，且造成资源浪费。建议设置为服务器内存的60%。

2、expire_logs_days=7

太短，只能保留7天的binlog，只能恢复7天内的任意数据。建议设置为参数文件里被覆盖的90天的设置。

3、long_query_time=10

太长，建议设置为2秒，让慢查询日志记录更多的慢查询。

4、transaction-isolation = read-committed

建议注释掉，使用数据库默认的事务隔离级别

5、innodb_lock_wait_timeout = 5

设置得太小，会导致事务因锁等待超过5秒，就被回滚。建议和云门户设置得保持一致，云门户大小为120。

6、autocommit = 0

#建议改为mysql默认的自动提交(autocommit=1)，提升性能，方便日常操作。

原文 http://mp.weixin.qq.com/s?__biz=MzIwMDY0Nzk2Mw==&mid=2650320622&idx=1&sn=732916745e1e525d7ed8bb8150d99d03

正文到此结束

所属分类：编程技术软件架构

本文标签： mysql 数据库 NSA 操作系统 http Mysql数据库 redis 参数 src Kibana https 数据分页 wait_timeout ELK 并发 db UI list show processlist id 微服务 ssl sql 实例同步 Master 缓存服务器集群解析 IO 索引 spring 进程 MongoDB 总结 Action springcloud 云线程注释锁 autocommit mongo
版权声明： 本文为互联网转载文章，出处已在文章中说明(部分除外)。如果侵权，请联系本站长删除，谢谢。
本文海报： 生成海报一生成海报二

热门推荐

openfire数据库安装指南

浏览(14,927) 评论(0)
Caffe 深度学习框架上手教程

浏览(11,207) 评论(0)
ReactiveCocoa入门教程：第一部分

浏览(12,015) 评论(0)
开源HIDS-OSSEC使用实例:监测CC攻击

浏览(11,917) 评论(0)
Decorators in ES7

浏览(16,532) 评论(4)
用Electron（Atom编辑器的兄弟项目）开发桌面应用

浏览(29,505) 评论(0)
Windows下JetBrains CLion中文输出乱码的解决方法

浏览(12,952) 评论(1)
同步-@synchronized, NSLock, pthread, OSSpinLock性能比较

浏览(11,867) 评论(0)
【开班了】JAVA培训班正式招生

浏览(8,012) 评论(12)
Seaweedfs之Volume读请求重定向

浏览(26,170) 评论(3)

相关文章

阿里云首购8折

Loading...

其他链接

关于本站

本站定位：个人技术类博客

本站作用：写博客、记日志、闲聊扯淡鼓捣技术。

问题交流

[HBLOG]公众号

HBLOG

HBLOG