SQL B+ 树索引的真实工作方式

日期：2026-01-18 00:00 / 作者：冷漠man

B+树索引高效源于叶子节点有序链表、非叶节点纯导航及单次I/O覆盖多键；聚簇索引叶子存整行，二级索引叶子存字段值+主键值，回表增加I/O；覆盖索引可避免回表；非叶节点仅存路由键和页号，键越小树高越低；范围查询依赖叶子双向链表实现顺序I/O；自增主键减少分裂，UUID主键易致碎片。

SQL 中的 B+ 树索引不是“按关键字快速跳转”的黑盒，而是一套严格依赖数据物理组织和树结构特性的查找机制——它的高效，来自叶子节点的有序链表、非叶节点的纯导航作用，以及一次磁盘 I/O 尽可能覆盖更多键值的设计。

在 InnoDB 中，主键索引（聚簇索引）的叶子节点直接存放完整的行记录，数据按主键顺序物理存储；而普通字段上的二级索引，叶子节点只存该字段值 + 对应的主键值（不是指针，是实际主键值），查到后再回表——这意味着二级索引范围扫描时，若需大量非索引列，I/O 成本可能远超预期。

例如：WHERE status = 'active' ORDER BY created_at，如果 status 是二级索引但 created_at 不在索引中，MySQL 先遍历 status 索引的叶子链表，对每个匹配项回表取 created_at 排序——本质是 N 次随机 I/O。
优化方向：把排序字段加入索引形成覆盖索引，如 (status, created_at)，此时排序直接在索引叶子节点完成，无需回表。

B+ 树的非叶节点（包括根和中间层）仅保存用于导航的“分割键”（split key）和对应子节点页号。这些键是子树中最小（或最大）键的副本，仅作分流用，本身不关联任何用户数据。因此，非叶节点越小，树的高度就越低，查询路径就越短。

一个 16KB 的 InnoDB 页，若索引字段是 INT（4 字节），加上 6 字节页指针，单页可存约 1600 个键，三层 B+ 树就能管理上千万行数据。
但如果索引字段是 VARCHAR(255) 且平均长度 100 字节，同样一页可能只存几十个键，树高增加，查询需更多 I/O。

一旦定位到范围起点的叶子页（比如 WHERE id BETWEEN 1000 AND 2000），B+ 树不再向上找父节点再下探，而是直接利用叶子节点之间通过双向链表相连的特性，顺序遍历后续叶子页——这使得范围扫描接近顺序 I/O，远快于等值查询的多次随机 I/O。

注意：这个优势只在“连续范围”且“数据分布均匀”时明显。若条
件为 id IN (1000, 1005, 1010, ..., 2000)，优化器可能放弃范围扫描，改用多次等值查找，性能下降。
EXPLAIN 中 type: range 表示走了范围扫描；若出现 type: index，说明在索引整棵树上全扫（比如没 WHERE 条件但用了 ORDER BY + LIMIT），要警惕。

B+ 树插入新键时，若目标叶子页已满，就会分裂：原页前半数据保留，后半数据移入新页，并在父节点插入新键指向新页。InnoDB 默认采用“保守分裂”（约 1/2 分裂），且优先向右分裂——这使主键自增场景下，新记录总追加到最右叶子页，极少触发分裂，写性能极高。

反例：用 UUID 作主键，新值随机分布，插入常导致中间页分裂，产生大量碎片和随机写，同时降低缓存命中率。
观察方式：查看 SHOW TABLE STATUS 中的 Data_free（空闲空间字节数）和 Index_length 增长趋势；定期用 OPTIMIZE TABLE 或 ALTER TABLE ... FORCE 重建可整理碎片。