《面试官:谈谈你对索引的认知》系列之B-树

简介: 对于MySQL索引,相信每位后端同学日常工作中经常会用到,但是对其索引原理,却可能未曾真正深入了解,导致在面试过程中,回答不出重点那就可能要与机会说byebye了。

写在前面


对于MySQL索引,相信每位后端同学日常工作中经常会用到,但是对其索引原理,却可能未曾真正深入了解,导致在面试过程中,回答不出重点那就可能要与机会说byebye了。


面试官:MySQL的索引实现是用什么数据结构?


你:好像是B+树吧


面试官:为什么要用B+树,而不是B-树?


你:...


面试官:用B+树实现索引结构,有什么好处?


你:...


B-树和B+树是MySQL索引使用的数据结构,对于索引优化和原理理解都非常重要,下面就揭开B-树和B+树的神秘面纱,让大家在面试的时候碰到这个知识点一往无前,不再成为你前进的羁绊!


B-树 简介


B-树,这里的 B 表示 balance( 平衡的意思),B-树是一颗多路平衡查找树,它类似普通的平衡二叉树,不同的一点是B-树允许每个节点有更多的子节点。


微信图片_20220608213813.png


从上图B-树的简化图,我们可以发现几个显著特点:


  • 所有键值分布在整颗树中(索引值和具体data都在每个节点里),叶节点具有相同的深度;


  • 任何一个关键字出现且只出现在一个结点中;


  • 搜索有可能在非叶子结点结束(最好情况O(1)就能找到数据);


  • 在关键字全集内做一次查找,性能逼近二分查找


平衡二叉树 VS B-树


我们知道传统用来搜索的平衡二叉树有很多,如 AVL 树,红黑树等。


这些树在一般情况下查询性能非常好,但当数据非常大的时候它们就无能为力了。原因当数据量非常大时,内存不够用,大部分数据只能存放在磁盘上,只有需要的数据才加载到内存中。一般而言内存访问的时间约为 50 ns,而磁盘在 10 ms 左右。速度相差了近 5 个数量级,磁盘读取时间远远超过了数据在内存中比较的时间。这说明程序大部分时间会阻塞在磁盘 IO 上。


那么我们如何提高程序性能呢?


  • 平衡二叉树

微信图片_20220608213818.png


平衡二叉树 是通过旋转来保持平衡的,而旋转是对整棵树的操作,若部分加载到内存中则无法完成旋转操作。其次平衡二叉树的高度相对较大为 log n(底数为2),这样逻辑上很近的节点实际可能非常远,无法很好的利用磁盘预读(局部性原理)。


空间局部性原理:如果一个存储器的某个位置被访问,那么将它附近的位置也会被访问。


  • B-树

微信图片_20220608213823.png


B-树多叉的好处非常明显,有效的降低了B-树的高度(为底数很大的 log n,底数大小与节点的子节点数目有关,一般一棵B-树的高度在 3 层左右)。层数低,每个节点区确定的范围更精确,范围缩小的速度越快(比二叉树深层次的搜索肯定快很多)。上面说了一个节点需要进行一次 IO,那么总 IO 的次数就缩减为了 log n 次。


B-树的每个节点是 n 个有序的序列(a1,a2,a3… an),并将该节点的子节点分割成 n+1 个区间来进行索引(X1< a1, a2 < X2 < a3, … , an+1 < Xn < anXn+1 > an)。


B-树的查找


我们来看看B-树的查找,假设每个节点有 n 个 key值,被分割为 n+1 个区间,注意,每个 key 值紧跟着 data 域,这说明B-树的 key 和 data 是聚合在一起的。一般而言,根节点都在内存中,B-树以每个节点为一次磁盘 IO。


若搜索 key 为 25 节点的 data,首先在根节点进行二分查找(因为 keys 有序,二分最快),判断 key 25 小于 key 50,所以定位到最左侧的节点,此时进行一次磁盘 IO,将该节点从磁盘读入内存,接着继续进行上述过程,直到找到该 key 为止。


总结


索引的效率依赖于磁盘 IO 的次数,快速索引需要有效的减少磁盘 IO 次数。Q:那如何实现快速索引呢?索引的原理其实是不断的缩小查找范围就如我们平时用字典查单词一样,先找首字母缩小范围,再第二个字母等等。


  • 平衡二叉树是每次将范围分割为两个区间;


  • B-树每次将范围分割为多个区间,区间越多,定位数据越快越精确。


那么如果节点为区间范围,每个节点就较大了。所以新建节点时,直接申请页大小的空间(磁盘存储单位是按 block 分的,一般为 512 Byte。磁盘 IO 一次读取若干个 block,我们称为一页,具体大小和操作系统有关,一般为 4 k,8 k或 16 k),计算机内存分配是按页对齐的,这样就实现了一个节点只需要一次 IO。


为什么会存在B-树这类结构呢?


任何事物,存在就有其道理。B-树的设计相对平衡二叉树,似乎更“迎合”磁盘的角度。

相关文章
|
机器学习/深度学习 存储 算法
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
机器学习面试笔试知识点-决策树、随机森林、梯度提升决策树(GBDT)、XGBoost、LightGBM、CatBoost
588 0
|
5月前
|
机器学习/深度学习 算法 数据挖掘
【数据挖掘】 GBDT面试题:其中基分类器CART回归树,节点的分裂标准是什么?与RF的区别?与XGB的区别?
文章讨论了梯度提升决策树(GBDT)中的基分类器CART回归树的节点分裂标准,并比较了GBDT与随机森林(RF)和XGBoost(XGB)的区别,包括集成学习方式、偏差-方差权衡、样本使用、并行性、最终结果融合、数据敏感性以及泛化能力等方面的不同。
66 1
|
8月前
【一刷《剑指Offer》】面试题 18:树的子结构
【一刷《剑指Offer》】面试题 18:树的子结构
|
8月前
|
存储
Tire树-不学面试后悔
Tire树-不学面试后悔
面试还在被红-黑树虐?看完这篇轻松搞定面试官(二)
面试还在被红-黑树虐?看完这篇轻松搞定面试官
面试还在被红-黑树虐?看完这篇轻松搞定面试官(二)
|
8月前
|
存储 算法 关系型数据库
【面试普通人VS高手系列】b树和b+树的理解
【面试普通人VS高手系列】b树和b+树的理解
|
8月前
|
人工智能 算法
【数据结构入门精讲 | 第十三篇】考研408、公司面试树专项练习(二)
【数据结构入门精讲 | 第十三篇】考研408、公司面试树专项练习(二)
115 0
|
8月前
|
机器学习/深度学习 存储 算法
【数据结构入门精讲 | 第十二篇】考研408、公司面试树专项练习(一)
【数据结构入门精讲 | 第十二篇】考研408、公司面试树专项练习(一)
468 0
|
8月前
|
JavaScript 算法 前端开发
面试题:vue2和vue3区别、vue3项目的打包体积为什么减少40%、vue2和vue3同样可以使用TS开发,为什么vue3就易于扩展呢?vue3的摇树优化是怎么样的优化过程?
面试题:vue2和vue3区别、vue3项目的打包体积为什么减少40%、vue2和vue3同样可以使用TS开发,为什么vue3就易于扩展呢?vue3的摇树优化是怎么样的优化过程?
226 0
|
8月前
|
SQL 数据挖掘 数据处理
「SQL面试题库」 No_36 树节点
「SQL面试题库」 No_36 树节点

热门文章

最新文章