MySql - InnoDB 之 Buffer Pool | 重要数据结构

对于基于磁盘的存储数据库系统Disk-base Database System，最重要的目的就是高效地存取数据。但由于 CPU 和磁盘速度之间存在难以逾越的鸿沟，为了弥补二者之间的速度差异，必须使用缓冲池技术来加速数据的存取。因此，缓冲池Buffer Pool 是 InnoDB 最为重要的部分。

也因为引入这一中间层，使得 InnoDB 对数据库内存的管理变得相对更为复杂。缓冲池主要包括以下特性：LRU List、Free List、Fulsh List、Fulsh 策略、Double write buffer、预读预写、预热、动态扩展、压缩页内存管理、并发控制、多线程工作等。

重要对象基本概念

Buffer Pool Instance

InnoDB 1.0.x 版本开始，缓冲池可以分为多个缓冲池实例Buffer Pool Instance，每个页面根据哈希值平均分配到不同的缓冲池实例中去。每个实例资源独立，拥有自己的锁、信号量、物理块、逻辑链表，页哈希表等，这样就可以通过减少缓冲池内部的资源竞争以提高引擎整体的性能。相关参数为：

buf_pool_t

Page

数据页Page 是 InnoDB 中最小的数据管理单位，默认为 16KB，InnoDB 1.2.x 版本开始可以修改页大小为 4K、8K、16K，引擎首次启动之后便无法再更改页大小。

如果对表进行压缩，则对应的数据页称为压缩页，压缩页大小在建表时指定，支持 1K、2K、4K、8K、16K，压缩为 16K 虽然没有节约空间但对 blob、varchar、text 类型有一定好处。从压缩页中读取数据需要先解压形成解压页再读取，解压页与数据库默认页大小相同。如果压缩页大小指定为 4K 但数据页无法压缩到 4K 以下，则会对数据页进行一次页分裂操作。

正常情况下，缓冲池会同时缓存压缩页及其解压页，当空闲列表不够用时会根据系统是实时负载决定淘汰策略：如果系统瓶颈在 IO 上就淘汰解压页，否则两者都淘汰。

脏页Dirty Page 指缓冲池中数据被修改了但是还没落盘的数据页。无论普通数据页还是压缩页只要发生数据更新都可以称为脏页，脏页的会被链接到 Flush 链表中。每隔一段时间或者系统空闲时会有部分脏页被更新到磁盘中，在脏页被剔除出缓冲池的时候必定会进行落盘操作。

每个数据页都会有与之对应的数据页控制体，用于存储数据页相关的各项数据和指向数据页的指针，数据页控制体由两种数据结构一起组成，分别为 buf_page_t 和 buf_block_t。

buf_block_t

数据页的控制体之一，描述少量数据页的信息。第一个数据成员就是另一个数据页控制块指针，必须作为第一个数据成员以随时转换成另一个数据页控制块。第二个数据成员 frame 是指向所属数据页的指针。

buf_page_t

Buffer Chunk

逻辑链表

Free List

LRU List

LRU List 是缓冲池中最重要的数据结构，基本所有读入的数据页都缓冲于其上。LRU 链表顾名思义根据最近最少使用算法Least Recently Used对节点进行淘汰，但在这里所使用的是优化后的 LRU 算法。

Flush List

缓冲池中所有脏页都会挂载在 Flush List 中，以等待数据落盘。LRU List 中的页被修改后也会被放入 Flush List 中，被修改过后的压缩页也会被放入 Flush List 中。在数据更改被刷入磁盘前，数据很有可能会被修改多次，在数据页控制体中记录了最新修改的 lsn（newset_modification）和最老修改的 lsn（newest_modification）。进入 Flush list 的节点按照进入的顺序进行排序，最新加入的数据页放在链表头部。数据页在进入 Flush List 时对 Flush List 加锁以保证节点进入的顺序。刷数据时从链表尾开始写入。

Unzip LRU List

Zip Clean List

Zip Free

Mutex

名称	类型	目标
`lru_list_mutex`	互斥量	LRU 列表
`free_list_mutex`	互斥量	Free 列表
`flush_list_mutex`	互斥量	Flush 列表
`hash_lock`	读写锁	Page hash
`buffer block mutex`	互斥量	buf_block_t
`buf_fix_count`	信号量	buf_page_t
`io_fix`	状态量	buf_page_t
`rw_lock(BPageMutex)`	读写锁	数据页

List Mutex

所有数据页都在空闲列表、LRU 列表和 Flush 列表上，因此必须先获取这几个列表的锁才能进行 IO 操作。

hash_lock

在 MySql 5.6 版本之前，对页哈希表的操作使用一个 Page Hash 级别的锁。而后优化为 slot 级别的 hash_lock，即页哈希表有多少个 slot 就有多少个 hash_lock，以尽量减少锁冲突。

在获取 hash_lock 并访问到数据页的后，就会直接放开 hash_lock。

page block mutex

buffer block mutex 是 buf_block_t 上的锁，用于保护 buf_page_t 上的 io_fix、state、buf_fix_count 等变量, 引入这个 mutex 是为了减少早期版本直接使用缓冲池级别锁的开销。

buf_fix_count 与 io_fix

io_fix 表示当前的 page frame 正在进行的 IO 操作状态，主要有 BUF_IO_READ、BUF_IO_WRITE、BUF_IO_PIN、BUF_IO_NONE。

buf_fix_count 表示当前这个控制块被引用了多少次, 每次访问一个 page 的时候, 都会对 buf_fix_count++，最后在 mtr:commit() 的最后资源释放阶段, 会对这个buf_fix_count--，进行资源的释放.

page frame rw_lock

数据页实体上的读写锁，而非数据页控制体上的锁。在访问数据页的时候，会对数据页加 s lock，在准备写数据页时会加 sx lock，确认修改时加 x lock。但像后台线程在刷脏的时候，对数据页加 x 锁会极大地影响数据页的访问，因此 InnoDB 通过设置 page block mutex、io_fix、buf_fix_count 对 rw_lock 层层保护。

在判断一个页能否被 flush 的时候，会先通过判断 io_fix 状态以减少直接获取 page frame rw_lock 的操作。

通常访问一个数据页的加锁流程是：

获取 hash_lock，获取 page block lock 之后释放 hash_lock。
判断并修改 io_fix 和 buf_fix_count，然后放开 page block lock。
获取 page frame rw_lock。

Page Hash 与 Zip Hash

读入缓冲池的页面由 LRU 链表串联起来，但如果每次查询页面都去遍历 LRU 链表的话是不可想象的。利用哈希表在 O(1) 时间复杂度查询和定位数据的特性，InnoDB 为每个缓冲池实例维护了页哈希表，通过 space_id 和 page_id 来定位与读取数据。

LRU 列表中的数据页将被添加到 Page Hash 中，Unzip LRU List 列表中的数据页将被添加到 Zip Hash 中。

Double Write Buffer

双写缓冲Double Write Buffer 主要是为了解决数据页半写的问题。由于 Linux 操作系统磁盘管理机制的页大小是 4K 与引擎默认的 16K 数据页大小不一致，在写入一个数据页的时候，可能会发生写入未满 16K 而突然断电的情况。如果文件管理系统能够保证原子写入就不会有半写问题，或者将引擎默认页大小改为 4K，但 16K 数据页的默认设置本来就是最佳实践了。

在磁盘和内存中都设置有双写缓冲，大小都是 2M，即 128 个数据页，不占用数据块的空间。它分为两部分，一部分供 batch write 使用，即批量刷脏；另一部分供 single page write 使用，即单页刷脏。batch write 大小默认为 innodb_doublewrite_batch_size = 120 。

在进行批量刷脏操作时，会先写入到内存的双写缓冲中。在内存双写缓冲区写满的时候会使用同步 IO 一次性将数据刷到磁盘双写缓冲区中，使用同步 IO 以保证安全写入。接着再使用异步 IO 把各个数据页写回自己的表空间，直接返回 buf_dblwr_add_to_batch 表示写成功。不过此时后续对磁盘双写缓冲区的写请求依然会被阻塞，只有在确认异步操作都成功后才会清空系统表空间双写缓冲上的内容，后续请求才能被继续执行。这样做的目的是：如果在异步写回数据页的时候，系统断电发生了数据页半写，由于系统表空间中双写缓冲区的数据页是完整的，重新拷贝即可。异步 IO 请求完成后，会检查数据页的完整性以及完成 change buffer 相关操作，接着 IO helper 线程会调用 buf_flush_write_complete 把数据页从 Flush 列表中删除。

vlambda博客
学习文章列表