一 序言
在運維線上m-m 架構的mysql資料庫時,接收的比較多關于主備延時的報警:
相信slave 延遲是mysql dba 遇到的一個老生長談的問題了。先來分析一下slave延遲帶來的風險
1. 異常情況下,主從ha無法切換。ha 軟體需要檢查資料的一緻性,延遲時,主備不一緻。
2. 備庫複制hang會導緻備份失敗(flush tables with read lock會900s逾時)
3. 以 slave 為基準進行的備份,資料不是最新的,而是延遲。
二 如何解決
面對此類問題我們如何解決 ,如何規避?分析一下導緻備庫延遲的幾種原因
1. row模式無主鍵、無索引或索引區分度不高.有如下特征
a. show slave status 顯示position一直沒有變
b. show open tables 顯示某個表一直是 in_use 為 1
c. show create table 檢視表結構可以看到無主鍵,或者無任何索引,或者索引區分度很差。
解決方法:
a. 找到表區分度比較高的幾個字段, 可以使用這個方法判斷:
select count(*) from xx;
select count(*) from (select distinct xx from xxx) t;
如果2個查詢count(*)的結果差不多,說明可以對這些字段加索引
b. 備庫stop slave;
可能會執行比較久,因為需要復原事務。
c. 備庫
set sql_log_bin=0;
alter table xx add key xx(xx);
老的版本slave應用binlog時隻會選擇第一個索引,需要把新加的索引放在最前面,可以先把老的索引删掉,建新的索引,再把老的索引建上。可以放到一個sql中執行。
d. 備庫start slave
如果是innodb,可以通過show innodb status來檢視 rows_inserted,updated,deleted,selected這幾個名額來判斷。
如果每秒修改的記錄數比較多,說明複制正在以比較快的速度執行。
2 mixed模式無索引或sql慢
在從庫上show full processlist 檢視到正在執行的sql。
a. sql比較簡單, 則檢查是否缺少索引,并添加索引。
b. 另一類是 insert into select from的語句,如果select 裡包含group by,多表關聯,可能效率會比較低。
這類可以到主庫把binlog_format改成row。
3 主庫上有大事務,導緻從庫延時
現象解析binlog 發現類似于下圖的情況看
與開發溝通,增加緩存,異步寫入資料庫,減少直接對db的大量寫入。
4. 主庫寫入頻繁,從庫壓力跟不上導緻延時
此類原因的主要現象是資料庫的 iud 操作非常多,slave由于sql_thread單線程的原因追不上主庫。
解決方法:
a 更新從庫的硬體配置,比如ssd,fio.
b 使用@丁奇的預熱工具-relay fetch
在備庫sql線程執行更新之前,預先将相應的資料加載到記憶體中,并不能提高sql_thread線程執行sql的能力,也不能加快io_thread線程讀取日志的速度。
c 使用多線程複制 阿裡mysql團隊實作的方案--基于行的并行複制。
該方案允許對同一張表進行修改的兩個事務并行執行,隻要這兩個事務修改了表中的不同的行。這個方案可以達到事務間更高的并發度,但是局限是必須使用row格式的binlog。因為隻有使用 row格式的binlog才可以知道一個事務所修改的行的範圍,而使用statement格式的binlog隻能知道修改的表對象。
5. 資料庫中存在大量myisam表,在備份的時候導緻slave 延遲
由于xtrabackup 工具備份到最後會執行flash tables with read lock ,對資料庫進行鎖表以便進行一緻性備份,然後對于myisam表 鎖,會阻礙salve_sql_thread 停滞運作進而導緻hang
該問題目前的比較好的解決方式是修改表結構為innodb存儲引擎的表。
三 拓展閱讀