笔者是知数堂早期学员,最初有写这么一个工具的想法也得到叶金荣老师的认可和鼓励,这个想法也整整耗掉了好几个晚上的休息时间,这里再次感谢叶金荣老师对工具审核,叶老师的经验和学识是每一位学员宝贵的财富。
感谢《MySQL运维内参》主要作者周彦伟、王竹峰、强昌金对本工具的认可并授权引用部分内容,如果大家对本文的内容感到吃力可以自行参考该书,也可以和书中部分章节配合使用学习。
感谢我所在的易极付公司DBA团队同事戴正勇、杨海波、田兴椿、邹启健,在我研究和编写代码的时候承担了大部分的数据库相关的工作,能在重庆遇到你们是我的荣幸,你们是最出色的。
百度云盘地址:
http://pan.baidu.com/s/1qYnyVWo
InnoDB中索引块的内部组织一直是大家比较感兴趣并且乐于研究的东西,我们从很多书籍和文章都不惜笔墨进行大量的描述比如<>中就能感受到作者用了大量篇幅描述什么是slot、什么是heap、记录的逻辑和物理顺序是怎么样的。运维内参>
但是我们却很难直观的看到,因为数据文件是二进制文件。虽然我们可以通过例如LINUX的hexdump等类似命令进行查看,但是大量的16进制信息很难直观的提取出各种有用的信息,相信不少人和笔者一样都是通过肉眼进行查看,但是这显然是一种吃力又不讨好的方法。
在Oracle中我们可以通过dump block的方法查看block的信息,那么InnoDB是否也可以这样呢?
本着这种让大家更加直观的观察到底层索引块的信息的宗旨,笔者直接借用源码中的各种宏定义,使用C++和STL list容器实现了这样一个工具innblock。由于工作原因不能全身心投入代码编写,代码有些混乱。所以如果有bug还请大家见谅以及提出,笔者会尽快进行更新,感谢。
index page(索引页、索引块),InnoDB表是基于聚集索引的索引组织表,整个表其实不是聚集索引,就是普通索引。因此InnoDB表空间文件中,数据页其实也是索引页,所以下面我们统称为索引页,英文用page no表示;
本工具有2个功能。
第一个scan功能用于查找ibd文件中所有的索引页。
第二个analyze功能用于扫描数据块里的row data。
先看下 help 输出

scan功能
analyze功能
可以执行 <code>innblock help</code> 获得更详细的使用帮助信息。
不支持REDUNDANT行格式的数据文件;
只支持LINUX x64平台;
本工具直接读取物理文件,部分dirty page可能延时刷盘而未能被读取到,可以让InnoDB及时刷盘再重新读取;
最好在MySQL 5.6/5.7版本下测试;
只能解析索引页,不支持inode page、undo log等类型的page;
scan功能会包含delete后的索引块和drop了的索引块.
不能读取详细的row data;
建议采用独立表空间模式,更便于观察;
建议仅在测试环境下学习和研究使用。
首先,创建测试表,填充数据
我们发现有3个索引,索引ID(INDEX_ID)分别是 248、249、250,查看数据字典确认
我们选取 pageno=3 那个索引页进行扫描,可见下面信息
我在工具的help文档中也有详细的解释,这里单独对analyze功能解析数据块的输出详解一番,并且我也会给出这些值来自源码的哪个宏定义。这部分知识点在<>中也有详细说明。运维内参>
[block_no]:page offset no inside space,begin is 0(取自 FIL_PAGE_OFFSET) 索引页码(index page no),该页相对于表空间的偏移量,从0开始计数。如果page no = 3,则实际上是第4个index page。
[space_id]:this contains the space id of the page(FIL_PAGE_SPACE_ID) 本索引页所属的表空间ID,可以在 INNODB_SYS_TABLES、INNODB_SYS_TABLESPACES、INNODB_SYS_DATAFILES 等系统视图中查看。
[index_id]:index id where the page belongs.This field should not be written to after page creation. (PAGE_INDEX_ID) 本索引页所属的索引ID,可以在 INNODB_SYS_INDEXES 系统视图中查看。
[slot_nums]:number of slots in page directory(PAGE_N_DIR_SLOTS) 本索引页中所包含的slot(槽)的数量。
[heaps_rows]:number of records in the heap include delete rows after purge and INFIMUM/SUPREMUM(取自PAGE_N_HEAP) 本索引页中的全部记录数量,这其中包含了已经deleted且已被purged的记录(这种记录会被放到索引页的garbage队列中),以及两个伪记录INFIMUM/SUPREMUM。
[n_rows]:number of records not include delete rows after pruge and INFIMUM/SUPREMUM(PAGE_N_RECS) 本索引页中的记录数,不含deleted且已被purged的记录,以及两个伪记录INFIMUM、SUPREMUM。
[heap_top]:pointer offset to record heap top (PAGE_HEAP_TOP) 指向本索引页已分配的最大物理存储空间的偏移量。
[del_bytes]:number of bytes in deleted records after purge(PAGE_GARBAGE) 本索引页中所有deleted了的且已被purged的记录的总大小。
[last_ins_offset]:pointer to the last inserted record, or NULL if this info has been reset by a delete(PAGE_LAST_INSERT) 指向本索引页最后插入记录的位置偏移量,如果最后操作是delete,则这个偏移量为空。通过判断索引页内数据最后插入的方向,用于索引分裂判断。
[page_dir]:last insert direction: PAGE_LEFT, ...(PAGE_DIRECTION) 本索引页中数据最后插入的方向,同样用于索引分裂判断。
[page_n_dir]:number of consecutive inserts to the same direction(PAGE_N_DIRECTION) 向同一个方向插入数据的行数,同样用于索引分裂中进行判断
[leaf_inode_space leaf_inode_pag_no leaf_inode_offset]:leaf segment postion and in inode block offset,only root block(PAGE_BTR_SEG_LEAF开始 10字节)
[no_leaf_inode_space no_leaf_inode_pag_no no_leaf_inode_offset]:no_leaf segment postion and in inode block offset,only root block(取自PAGE_BTR_SEG_TOP 开始 10字节) 这6个值只在root节点会有信息,分别表示了叶子段和非叶子段的inode的位置和在inode块中的偏移量,其他块都为0。
[last_modify_lsn]:lsn of the end of the newest modification log record to the page(FIL_PAGE_LSN) 本块最后一次修改的LSN。
[page_type]:for this tool only B+_TREE(FIL_PAGE_TYPE) 对于本工具而言始终为B+ TREE,因为不支持其它page type。
[level]:level of the node in an index tree; the leaf level is the level 0(PAGE_LEVEL) 本索引页所处的B+ TREE的层级。注意,叶子结点的PAGE LEVEL为0。
Total used rows:5 used rows list(logic): not delete purge rows and not delete logic sequence list(next offset list). 这个链表是逻辑有序链表,也是我们平时所说的块内数据有序的展示。它的顺序当然按照主键或者ROWID进行排列,因为是通过物理偏移量链表实现的,实际上就是逻辑上有序。我在实现的时候实际上是取了INFIMUM的偏移量开始进行扫描直到最后,但是注意被deleted且已经被purged的记录不在其中。
Total used rows:5 used rows list(phy): not delete purge rows and not delete physics sequence list(sort by heap no). 这个链表是物理上的顺序,实际上就是heap no的顺序,我在实现的时候实际上就是将上面的逻辑链表按照heap no进行排序完成的,所以块内部是逻辑有序物理无序的,同样注意被deleted且已被purged的记录不在其中。
Total del rows:1 del rows list(logic): purge delete logic sequence list(next offset list). 这个链表是逻辑上的,也就是被deleted且被purged后的记录都存在于这个链表中,通过读取块的PAGE_FREE获取链表信息。
Total slot:2 slot list: slot physics sequence list. 这是slot(槽的)信息,通过扫描块尾部8字节以前信息进行分析得到,我们可以发现在slot中存储的是记录的偏移量。
在这里链表中包含一些信息,这里就用help中的解析给出了。
[record offset]:real offset in block of this record.
[heapno]:physics heapno of this record.
[n_owned]:if this record is slot record n_owned is how many this slot include,other is 0.
[delflag]:this record is delete will Y,if not purge in list 1,if purge in list 3.
[rectype]: [REC_STATUS_ORDINARY=0(B+ leaf record) [REC_STATUS_NODE_PTR=1(not B+ leaf record)] [REC_STATUS_INFIMUM=2] [REC_STATUS_SUPREMUM=3]
[slot offset]:where(offset) this slot point,this is a record offset.no purge delete record.
[n_owned]:how many this slot include recorods.no purge delete record.
本节全部使用测试表如下:
初始化测试数据:
发起事务,先执行delete,暂不commit
分析结果:
我们看到其中有一条记录是
其 delflag = Y,offset = 127,这条记录只是delete,但还没 commit,也还没被 purged,因此不会出现在 del rows list链表中。
同时注意到几个信息:
del_bytes:0
n_rows:4
heaps_rows:6
三个信息结合起来看,表示还没有真正被清除的数据。
接着上面的事务,继续执行commit
我们看到,执行commit,这条偏移量为127的记录被purged后入了del rows list链表
其delflag = Y,同时我们观察到
del_bytes:31 //上一次看到的值是 0
n_rows:3 //上一次看到的值是 4
heaps_rows:6 //和上一次的值一样,因为这里计算的是物理记录数
可见,commit且被purged的数据才是真正的删除(清除)。
上面删除的记录的heapno为2,接着插入新记录
显然它的长度大于删除记录的长度。
我们看到有一条新记录
这条记录的heapno = 6,而删除的旧记录 heapno=2,这表明它没有重用del rows list中的空间,因为删除记录的空间根本放不下这条新记录,所以只能重新分配。同时我们注意到 heap_top = 279 ,这里也发生了变化,体现了实际为这行数据分配了新的heapno。
在上面的基础上,我们插入新记录
我们这次新写入的数据长度和删除的数据长度一致,我们发现heapno重用了del rows list中的记录没有了,而在数据逻辑顺序中多了一条
我们发现heapno=2的记录 delflag 不再是 Y了,同时 heap_top = 279 也没有变化,del_bytes:31 变成了 del_bytes:0,都充分说明了这块空间得到重用。
清空数据表后执行测试
在这里,我们先删除 [id1=4] 记录,后删除 [id1=3] 记录。 由于del list是头插法,所以后删除的 [id1=3] 的记录会放在del list链表的最头部,也就是 [del list header] => [id1=3] => [id1=4]。虽然 [id=4] 的记录空间足以容下新记录 (5,'gaopeng’,5),但并没被重用。因为InnoDB只检测第一个 del list 中的第一个空位 [id1=3],显然这个记录空间不足以容下新记录 (5,’gaopeng',5),所以还是新开辟了heap。
我们看到 del list 中共有2条记录(没被重用),却新增加了 heapno = 6 的记录。
从重组函数 btr_page_reorganize_low 来看,PAGE_GARBAGE确实包含了碎片空间。
注意这里 del_bytes:35 就是删除这条记录的空间的使用量。接下来执行SQL
再次分析结果:
注意到 del_bytes:4,这个刚好就是 'gaopeng' 7字节减去 'gao' 3字节剩下的4字节,我们也看到了 [heapno=5] 这个记录被重用了(del list为空,heaono=5的记录 delflag 不为 Y)。
总之本工具可以按照你的想法进行各种测试和观察。
实际上本工具我并没有显示的分配内存,内存分配基本使用了STL LIST容器检测结果如下:
本工具基本采集了InnoDB索引页全部固定信息,希望能够帮助大家更方便获得各种信息,效率显然高于肉眼看二进制文件,这是作者在分析InnoDB遇到的困境,也是写这个小工具的出发点。 最后再次感谢叶金荣对工具审核&建议以及《MySQL运维内参》三位作者周彦伟、王竹峰、强昌金对本工具的认可,这也是我个人最大的荣耀运维内参>
运维内参>
原文发布时间为:2017-10-01
本文作者:高鹏(重庆八怪)
本文来自云栖社区合作伙伴“老叶茶馆”,了解相关信息可以关注“老叶茶馆”微信公众号