深入剖析行溢出的存储结构

什么时候触发行溢出

行溢出的存储结构

行溢出的整体逻辑结构图

总结

本文以sql server为例聊聊行溢出的存储结构。

1什么时候触发行溢出

sql server的行溢出数据只会发生在变长字段上，变长列的长度不能超过标准变长列最大值8000个字节的限制，而且还要满足：

包括行头系统信息和所有定长列和变长系统信息的所有长度不能超过8060字节，要想存储8000字节以上的数据，应该使用lob（text、ntext或者image）或者max数据类型；

变长列的实际长度一定要超过24个字节（因为行溢出需要额外的24个字节行溢出指针，如果变长字段值不超过24个字节，完全没有必要把它作为行溢出数据存储）；

变长列不能是聚集索引键的一部分（如果行溢出是聚集索引键的一部分，那么表的查询性能会是一个噩梦）；

2行溢出的存储结构

为了了解overflow的结构，我们创建表heappage_overflow，并插入测试数据：

查看这行记录对于page的内容：

上面page数据中的一行记录可以格式化为下图所示：

图1：堆表heappage_overflow记录结构

其中几个重要部分结构解释如下：

0x2980这是包含后面指向存储行溢出的变长字段偏移量。把0x2980逆序成0x8029，再把0x8029转换为二进制1000000000101001，去除高2位（也就是粗体部分），取101001，转换为十进制就是41，高2位的目的其实只是一个标识，为了跟普通记录的变长字段偏移量进行区分。

第一个变长字段偏移量41是由17个字节系统信息加上24个字节的行溢出指针共同组成，计算公式为：41=17+24，下面对这24个字节的行溢出指针进行结构分析：

图2：堆表heappage_overflow的行溢出指针结构

0x02，特殊字段的类型，0x02表示行溢出数据；

0x0000，表示b树中的层级，行溢出的记录，这个值为始终为0，在lob记录的root记录中这个值为0x0100；

0x00，暂时未使用；

0x01000000，一个序列号，每次行溢出或lob数据被更新时这个值加1，并在乐观并发控制为游标使用；

0x804a0000，timestamp值，用于使用dbcc checktable检查表索引、行内、lob 以及行溢出数据页是否已正确链接。在lob的行内数据、lob的root指针以及存储lob的数据结构中都存储了这个值，而且他们的值都是一样的。0x804a0000逆序之后是0x0004a80，再向0x0004a80后面追加4个0得到0x0004a800000，转换为十进制为1249902592；要验证这个标识值的算法，可以使用工具winhex修改0x804a0000值并使用dbcc page(overflow,1,93,3) 查看timestamp值。

0x70170000，溢出字段长度，0x70170000逆序之后是0x00001770，用十进制表示是6000，这个跟前面插入记录时字段的大小完全吻合；

0x5900000001000000表示一个8个字节的rid地址，指向行溢出字段varcol存储6000字节所在数据页的rid地址为：(1:89:0)。

上面已经分析了在行内数据中存储的行溢出指针的结构，接下来将分析存储行溢出数据的物理结构。

查看行溢出存储page的内容：

图3：堆表heappage_overflow的行溢出数据结构

0x0800是这一行记录的行头数据，分解为byte#0的十六进制是0x08和byte#1的十六进制是0x00，0x08转换为二进制是：00001000，各个bit表示的含义如下：

图4：堆表heappage_overflow的行溢出行头结构

0x7e17是变长偏移量，经过逆序之后是0x177e，用十进制表示是6014，这个偏移量包含了14个字节的行溢出系统数据和6000个字节的行溢出字段值；

0x0000804a00000000是blob id值，跟in_row_data记录中24个字节的行溢出指针的timestamp值是相等的。要验证这个标识值的算法，可以使用工具winhex修改0x0000804a00000000的值并使用dbcc page(overflow,1,89,3)查看这个blob id值。如果不相等，虽然select一样能查询数据，但是在进行dbcc checkdb将会报引用不匹配的错误信息。

0x0300是数据类型，转换为十进制是3，type=3表示data，即表示这行记录是用于存储数据的。

3行溢出的整体逻辑结构图

根据上面对行记录存储结构的分析，行溢出的逻辑可以通过下面的图来表示：

图5：堆表heappage_forward第一行记录行溢出后的存储结构示意图

4总结

上文以堆表的行溢出数据为例讲解它的存储结构，从结构来看一行记录的存储跨越了两个page，相比于一条记录存储在一个page里，查询的时候增加了1个io，当表比较大的时候，随机io将会猛增，将会出现性能上的问题，一般建议控制好变长字段的大小，或者使用其它数据类型避免行溢出，也可以考虑表的垂直拆分。

更多关于sql server存储结构请参考《sql server性能调优实战》

作者介绍：陈畅亮

【dba+社群】广州联合发起人

微软sql server方向最有价值专家（mvp）,《sql server性能调优实战》作者，《windows powershell实战指南（第2版）》译者。

主要研究mysql、sql server、nosql，以及分布式环境下海量数据存储的设计与开发。

2015年dtcc大会演讲嘉宾

<b></b>

<b>本文来自云栖社区合作伙伴"dbaplus"，原文发布时间：2015-12-23</b>

深入剖析行溢出的存储结构

继续阅读

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制规程及特点4． CSMA/CD协议5． CSMA/CD的优点6．结束语

Windows下VS开发环境环境安装工程项目设置关于Debug和Release的提示

极大似然法(ML)与最大期望法(EM)

C++ 第十五周报告1--《冒泡法排序》

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

笔试面试题目：滑动窗口(二)

Windows下配置Apache的SSL服务

Mac｜Windows系统本地照片自动上传到服务器

MySQL的4种隔离级别？出现问题

数据结构与算法（27）——排序（二）

neo4j之cypher使用文档

Dijkstra--简易版（最短路径）

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

mysql使用source命令导入.sql文件

sqlServer根据经纬查距离

hdu7108哈希