MyRocks Clustered Index特性

简介: --- title: MySQL · myrocks · clustered index特性 author: 张远 --- # Cluster index介绍 最近在RDS MyRocks中,我们引入了一个重要功能,二级聚集索引(secondary clustering index). 我们知道innodb和rocksdb引擎的主键就是clustered index。二级聚集索引

title: MySQL · myrocks · clustered index特性

author: 张远

Cluster index介绍

最近在RDS MyRocks中,我们引入了一个重要功能,二级聚集索引(secondary clustering index). 我们知道innodb和rocksdb引擎的主键就是clustered index。二级聚集索引和普通二级索引的区别是,普通二级索引只包括索引列和主键列数据,而二级聚集索引列包含表的所有列数据。可以说二级聚集索引是表数据的一个完整的copy.

下面通过例子来看下二级聚集索引和普通二级索引在查询优化上的区别

  • 普通二级索引
    查询使用了c2普通二级索引,但不是cover index
create table t1(c1 int primary key, c2 int, c3 int, key(c2)) engine=rocksdb;
explain select * from t1 where c2=22;
id    select_type    table    type    possible_keys    key    key_len    ref    rows    Extra
1    SIMPLE    t1    ref    c2    c2    5    const    1    NULL
  • 二级聚集索引
    查询使用了c2二级聚集索引,并且是cover index
create table t1(c1 int primary key, c2 int, c3 int, clustering key(c2)) engine=rocksdb;
explain select * from t1 where c2=22;
id    select_type    table    type    possible_keys    key    key_len    ref    rows    Extra
1    SIMPLE    t1    ref    c2    c2    5    const    1    Using index

Cluster index用法

建表时指定cluster index

create table t1(c1 int primary key, c2 int clustering, c3 int) engine=rocksdb;
create table t2(c1 int primary key, c2 int clustering unique, c3 int) engine=rocksdb;
create table t3(c1 int primary key, c2 int, c3 int, clustering key(c3)) engine=rocksdb;

修改cluster index

create clustering index idx1 on t1(c2);
alter table t1 add clustering key(c3);

一个表支持同时建多个cluster index

create table t1(c1 int primary key, c2 int clustering , c3 int, clustering key(c3)) engine=rocksdb;

cluster index的优势

二级聚集索引相对普通二级索引,查询可以走cover index,可以省去二级索引回主键查数据的代价。对于MyRocks读能力不强的引擎来说,cover index显得尤为重要。

那么问题来了,如果我把表的所有列都建成一个普通二级索引,那么和二级聚集索引可以达到一样的效果,一样也可以使用cover index. 然而,二级索引有一些限制

  • MySQL索引最多支持16列,否则报如下错误
    1070: Too many key parts specified; max 16 parts allowed
  • MyRocks索引列总长度限制16K
    max_supported_key_length

另外,二级聚集索引性能更好

  • 全列普通二级索引key的长度较大,排序的开销更大
  • 全列普通二级索引在MyRocks中,数据都在key中,存储key时格式是memcomparable的,存取数据需encode/decode, 而二级聚集索引数据主要在value中,value中的数据不需要encode/decode

二级聚集索引更易维护

  • 对表的执行加减列操作后,全列普通二级索引需要重建,而二级聚集索引则不需要。

cluster index数据格式

  • 普通二级索引

MyRocks中普通二级索引对应的KV存储格式如下:

key: index_id,NULL-byte, 二级索引列, 主键列
value: unpack_info

key由index_id,二级索引键和主键组成, 其中NULL-byte表示索引列是否为空。
value只有unpack_info,表示二级索引键和主键列转换为memcomparable格式的信息,如果不需要额外转换信息则unpace_info为null

  • 二级聚集索引

MyRocks中二级聚集索引对应的KV存储格式如下:

key: index_id,NULL-byte, 二级索引列, 主键列
value: unpack_info, 表中其他所有列

相对普通二级索引,value中还包括索引其他所有列的数据

cluster index更新

由于二级聚集索引包含所有列信息,执行update语句更新非索引列时,二级聚集索引数据也需要更新。例如, t1表c2列为普通二级索引,c3列为二级聚集索引

  create table t1(c1 int primary, c2 int unique, c3 int clustering, c4 int) engine=rocksdb;
  insert into t1 values(1,1,1,1);

执行以下更新时,c2列为普通二级索引不需要更新,但二级聚集索引需要更新(delete+insert)。

   update  t1 set c4=2 where c1=1;

总结

二级聚集索引是MyRocks表数据的一个完整copy, 结合MyRocks高压缩特性,这种冗余数据的方式在MyRocks上非常合适。二级聚集索引是MyRocks的一个重要feature,它能够让查询尽量走cover index,避免回表操作,提升了MyRocks的读能力。

目录
相关文章
|
2月前
|
存储 关系型数据库 MySQL
InnoDB and MyISAM Index Statistics Collection
存储引擎收集表统计信息,供优化器使用,关键数据为平均值组大小,反映相同键前缀值的行数均值。该值影响索引效率,值越大,索引查找行数越多,效用越低。MySQL通过调整`innodb_stats_method`和`myisam_status`系统变量控制统计方法,涉及NULL值处理,如nulls_equal将所有NULL视为同一值组,可能影响索引使用决策。通过设置变量可优化统计信息收集,提升查询性能。
|
6月前
|
存储 关系型数据库 MySQL
InnoDB中的索引方案
InnoDB中的索引方案
58 0
|
SQL 存储 关系型数据库
为什么我建议在复杂但是性能关键的表上所有查询都加上 force index
为什么我建议在复杂但是性能关键的表上所有查询都加上 force index
为什么我建议在复杂但是性能关键的表上所有查询都加上 force index
|
关系型数据库 MySQL 索引
【实施工程师之家】——mysql四种索引PRIMARY(主键索引)、INDEX(一般索引)、UNIQUE(非空索引)、FULLTEXT(全文索引)应用
【实施工程师之家】——mysql四种索引PRIMARY(主键索引)、INDEX(一般索引)、UNIQUE(非空索引)、FULLTEXT(全文索引)应用
346 0
【实施工程师之家】——mysql四种索引PRIMARY(主键索引)、INDEX(一般索引)、UNIQUE(非空索引)、FULLTEXT(全文索引)应用
|
算法 关系型数据库 MySQL
MySQL - 索引方法 BTree 索引和 Hash 索引的区别
MySQL - 索引方法 BTree 索引和 Hash 索引的区别
157 0
|
弹性计算 关系型数据库 测试技术
PostgreSQL 分区表如何支持多列唯一约束 - 枚举、hash哈希 分区, 多列唯一, insert into on conflict, update, upsert, merge insert
标签 PostgreSQL , 分区表 , native partition , 唯一 , 非分区键唯一 , 组合唯一 , insert into on conflict , upsert , merge insert 背景 PG 11开始支持HASH分区,10的分区如果要支持hash分区,可以通过枚举绕道实现。 《PostgreSQL 9.x, 10, 11 hash分区表 用法举例
3104 0