天天看点

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

背景

XX实例(一主一从)xxx告警中每天凌晨在报SLA报警,该报警的意思是存在一定的主从延迟(若在此时发生主从切换,需要长时间才可以完成切换,要追延迟来保证主从数据的一致性)

XX实例的慢查询数量最多(执行时间超过1s的sql会被记录),XX应用那方每天晚上在做删除一个月前数据的任务

分析

使用pt-query-digest工具分析最近一周的mysql-slow.logpt-query-digest --since=148h mysql-slow.log | less结果第一部分

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

最近一个星期内,总共记录的慢查询执行花费时间为25403s,最大的慢sql执行时间为266s,平均每个慢sql执行时间5s,平均扫描的行数为1766万

结果第二部分

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

select arrival_record操作记录的慢查询数量最多有4万多次,平均响应时间为4s,delete arrival_record记录了6次,平均响应时间258s

select xxx_record语句

select arrival_record 慢查询语句都类似于如下所示,where语句中的参数字段是一样的,传入的参数值不一样select count(*) from arrival_record where product_id=26 and receive_time between '2019-03-25 14:00:00' and '2019-03-25 15:00:00' and receive_spend_ms>=0\G
一开工,就遇到上亿(MySQL)大表的优化,我的天啊

select arrival_record 语句在mysql中最多扫描的行数为5600万、平均扫描的行数为172万,推断由于扫描的行数多导致的执行时间长

查看执行计划

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

用到了索引IXFK_arrival_record,但预计扫描的行数很多有3000多w行

一开工,就遇到上亿(MySQL)大表的优化,我的天啊
一开工,就遇到上亿(MySQL)大表的优化,我的天啊

现在已经知道了在慢查询中记录的select arrival_record where语句传入的参数字段有 product_id,receive_time,receive_spend_ms,还想知道对该表的访问有没有通过其它字段来过滤了?

神器tcpdump出场的时候到了

使用tcpdump抓包一段时间对该表的select语句

tcpdump -i bond0 -s 0 -l -w - dst port 3316 | strings | grep select | egrep -i 'arrival_record' >/tmp/select_arri.log      

获取select 语句中from 后面的where条件语句

IFS_OLD=$IFS
IFS=$'\n'
for i in `cat /tmp/select_arri.log `;do echo ${i#*'from'}; done | less
IFS=$IFS_OLD      
一开工,就遇到上亿(MySQL)大表的优化,我的天啊

综上所示,优化方法为,删除复合索引IXFK_arrival_record,建立复合索引

idx_sequence_station_no_product_id,并建立单独索引indx_receive_time

delete xxx_record语句

一开工,就遇到上亿(MySQL)大表的优化,我的天啊
该delete操作平均扫描行数为1.1亿行,平均执行时间是262s

delete语句如下所示,每次记录的慢查询传入的参数值不一样

delete from arrival_record where receive_time < STR_TO_DATE('2019-02-23', '%Y-%m-%d')\G

执行计划

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

测试

拷贝arrival_record表到测试实例上进行删除重新索引操作XX实例arrival_record表信息

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

磁盘占用空间48G,mysql中该表大小为31G,存在17G左右的碎片,大多由于删除操作造成的(记录被删除了,空间没有回收)

备份还原该表到新的实例中,删除原来的复合索引,重新添加索引进行测试

mydumper并行压缩备份

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

并行压缩备份所花时间(52s)和占用空间(1.2G,实际该表占用磁盘空间为48G,mydumper并行压缩备份压缩比相当高!)

Started dump at: 2019-03-26 12:46:04
........

Finished dump at: 2019-03-26 12:46:56

du -sh   /datas/dump_arrival_record/
1.2G    /datas/dump_arrival_record/      

拷贝dump数据到测试节点scp -rp

/datas/dump_arrival_record [email protected]:/datas

多线程导入数据

time myloader -u root -S /datas/mysql/data/3308/mysqld.sock -P 3308 -p root -B test -d /datas/dump_arrival_record -t 32

real 126m42.885suser 1m4.543ssys 0m4.267s

逻辑导入该表后磁盘占用空间

du -h -d 1 /datas/mysql/data/3308/test/arrival_record.

12K

/datas/mysql/data/3308/test/arrival_record.frm

30G

/datas/mysql/data/3308/test/arrival_record.ibd没有碎片,和mysql的该表的大小一致*

cp -rp /datas/mysql/data/3308 /datas

分别使用online DDL和 pt-osc工具来做删除重建索引操作先删除外键,不删除外键,无法删除复合索引,外键列属于复合索引中第一列

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

做DDL 参考

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

实施

由于是一主一从实例,应用是连接的vip,删除重建索引采用online ddl来做。停止主从复制后,先在从实例上做(不记录binlog),主从切换,再在新切换的从实例上做(不记录binlog)

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

执行时间

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

再次查看delete 和select语句的执行计划

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

索引优化后

delete 还是花费了77s时间

delete from arrival_record where receive_time < STR_TO_DATE('2019-03-10', '%Y-%m-%d')\G      
一开工,就遇到上亿(MySQL)大表的优化,我的天啊
delete 语句通过receive_time的索引删除300多万的记录花费77s时间*

delete大表优化为小批量删除

应用端已优化成每次删除10分钟的数据(每次执行时间1s左右),xxx中没在出现SLA(主从延迟告警)

一开工,就遇到上亿(MySQL)大表的优化,我的天啊

总结

  • 表数据量太大时,除了关注访问该表的响应时间外,还要关注对该表的维护成本(如做DDL表更时间太长,delete历史数据)
  • 对大表进行DDL操作时,要考虑表的实际情况(如对该表的并发表,是否有外键)来选择合适的DDL变更方式
  • 对大数据量表进行delete,用小批量删除的方式,减少对主实例的压力和主从延迟