【笔记】开发指南—函数—拆分函数—STR_HASH

简介: 本文将介绍STR_HASH函数使用方式

描述

STR_HASH函数通过指定字符串的开始位置下标与结束下标,以截取拆分键的字符串的某段子串,然后将其作为字符串(或整数)输入进行分库分表的路由计算具体的物理分片,函数如下所示:


STR_HASH( shardKey [, startIndex, endIndex [, valType [, randSeed ] ] ] )
参数 说明
shardKey 拆分键列的列名。
startIndex 目标子串的开始位置的下标。取值从0开始(即原字符串的第1个字符的下标用0表示),默认值为-1(即不做任何截取)。
endIndex 目标子串的结束位置的下标。取值从0开始(即原字符串的第1个字符的下标用0表示),默认值为-1(即不做任何截取)。

startIndex和endIndex时需注意如下几种取值情况:

  • 当startIndex == j && endIndex = k (j>=0, k>=0 ,k>j)时,表示截取原字符串的[ j, k )区间的字符串作为子串。例如:
    • 对于字符串ABCDEFG,子串区间[1,5)的值是BCDE。
    • 对于字符串ABCDEFG,,子串区间[2,2)的值是''。
    • 对于字符串ABCDEFG,子串区间[4,100)的值是EFG。
    • 对于字符串 ABCDEFG,子串区间[100,105)的值是''。
  • 当startIndex == -1 && endIndex = k (k>=0)时,表示截取原字符串最后k个字符作为子串,原字符串不足k个字符则直接获取整个字符串。
  • 当startIndex = k && endIndex == -1 (k>=0)时,表示截取原字符串开头k个字符作为子串,原字符串不足k个字符则直接获取整个字符串。
  • 当startIndex == -1 && endIndex == -1时, 表示不做任何截取,子串与原字符串完全一致。
valType 表示截取后的子串在计算分库分表时所使用的类型,取值范围如下:
  • 0(默认值):表示PolarDB-X将截取后的子串当作字符串类型来计算路由。
  • 1:表示PolarDB-X将截取后的子串当作整数类型来计算路由(子串面值的整数不能大于9223372036854775807,也不支持浮点数)
randSeed 当子串以字符串类型来计算路由的哈希值时PolarDB-X所使用的随机种子的值,通常不用需要填写,仅当用于使用默认值随机种子(randSeed=31)的STR_HASH在实际业务中出现路由不均衡的场景,达到用哈希均衡数据的目的。该参数默认值为31,可取其他值(如131,13131,1313131等)。

说明

  • 仅当valType取值为0时,才支持配置该参数。
  • 该参数调整后您需要手动将所有数据导出来,再将新的拆分算法导入数据(即您需要对数据进行重分布)。

注意事项

使用STR_HASH做拆分的表仅适用于点查场景,如果在业务中范围查询,则会接直接触发全表扫描导致慢查询。

使用限制

  • 拆分键的数据类型需为字符串类型(CHAR或VARCHAR)。
  • 不支持在建表完成后再调整STR_HASH的参数。

使用场景

  • 实现一个分表(或分库)只对应一个拆分表键的取值(字符串类型)的精准路由效果。例如,某个互联网金融应用是按年月(YYYYMM)分库,然后按订单号分表,该应用的订单号有个特点,就是订单号的最后3位字符串是一个整数,其取值范围是000~999。该应用的需求是需要在一个物理分库内,要将订单号后3位的每一个数值只单独路由到一个物理分表。那么,该应用分库采用YYYYMM,然后分表采用拆分函数STR_HASH,每个库1024个分表,就可以达到效果。具体的SQL语句如下:
create table test_str_hash_tb (

id int NOT NULL AUTO_INCREMENT,
order_id varchar(30) NOT NULL,
create_time datetime DEFAULT NULL,
primary key(id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
dbpartition by YYYYMM(`create_time`)
tbpartition by STR_HASH(`order_id`, -1, 3, 1) tbpartitions 1024;
  • 应用采用这样建表SQL,原因是分表的字符串截取后3位并转换为整数(整数范围是000~999)后再取模做分表路由(共1024个分表),其路由结果能保证每一个物理分表只对一个拆分建的取值。而原来PolarDB-X默认拆分函数HASH无法达到这样的效果,是因为字符串经过hashCode计算后的整数是不可预知的,有可能会出现一个物理分表要对应多个不同拆分建的取值。
  • STR_HASH拆分函数适用于使用字符串类型作为拆分键并且是绝大部分都是点查的场景,如根据ID查交易订单、物流订单等。

使用示例

假设order_id的类型为VARCHAR(32),现在需要将order_id作为拆分键,计划分4个库,分8个表。

  • 假设需要使用order_id的最后4位的字符串作为整数来计算分库分表路由,则您可以使用如下SQL进行建表。
create table test_str_hash_tb (    
id int NOT NULL AUTO_INCREMENT,
order_id varchar(32) NOT NULL,
create_time datetime DEFAULT NULL,
primary key(id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
dbpartition by STR_HASH(`order_id`, -1, 4, 1)
tbpartition by STR_HASH(`order_id`, -1, 4, 1) tbpartitions 2;
  • 假设需要截取order_id的第3个字符(即starIndex=2)与第7个字符(即endIndex=7)之间子串来计算分库分表路由,则您可以使用如SQL进行建表。
create table test_str_hash_tb (    
id int NOT NULL AUTO_INCREMENT,
order_id varchar(32) NOT NULL,
create_time datetime DEFAULT NULL,
primary key(id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
dbpartition by STR_HASH(`order_id`, 2, 7)
tbpartition by STR_HASH(`order_id`, 2, 7) tbpartitions 2;
  • 假设需要截取order_id的前5个字符串作为子串来计算分库分表路由,则您可以使用如SQL进行建表。
create table test_str_hash_tb (    
id int NOT NULL AUTO_INCREMENT,
order_id varchar(32) NOT NULL,
create_time datetime DEFAULT NULL,
primary key(id)
) ENGINE=InnoDB DEFAULT CHARSET=utf8
dbpartition by STR_HASH(`order_id`, 5, -1)
tbpartition by STR_HASH(`order_id`, 5, -1) tbpartitions 2;

常见问题

Q:dbpartition by STR_HASH(order\_id) dbpartition by HASH(order\_id)有什么区别?

A:两者虽然都是直接根据字符串取值做分库分表的哈希路由,但是两者的分库分表的路由算法实现不一样。前者支持用户建表时自行设定截取子串相关参数,且在根据字符串的哈希值计算分库分表路由时是基于UNI_HASH算法进行计算;而后者是只对字符串的哈希值做简单取模。

上一篇:HASH


相关文章
|
机器学习/深度学习 数据采集 vr&ar
3D重建范式变革!最新模型MVDiffusion++
【2月更文挑战第30天】MVDiffusion++,一项革命性的3D重建技术,能在少量图像和无相机姿态信息下生成高密度、高分辨率的3D视图,简化重建流程。采用无姿态架构和视图丢弃策略,提升效率和质量。在Objaverse和Google Scanned Objects数据集上表现优越,且能与文本到图像生成模型结合,潜力广泛应用于游戏、电影和虚拟现实。然而,对训练数据质量和计算资源的需求是其挑战。
303 4
3D重建范式变革!最新模型MVDiffusion++
|
Ubuntu Linux 程序员
一个9年archlinux重度使用者自述
一个9年archlinux重度使用者自述
解锁Qt QListWidget的全部潜力——用最佳实践和技巧赢得用户的喜爱和赞誉!
解锁Qt QListWidget的全部潜力——用最佳实践和技巧赢得用户的喜爱和赞誉!
557 1
|
弹性计算 云计算
弹性计算是什么
弹性计算是什么
986 0
|
缓存 监控 安全
有哪些搭建代理服务器的好方法?--代理IP小课堂
今天我们就来说一说,要如何搭建代理服务器,以此来帮助你快速入门代理服务器的搭建和使用。
|
存储 人工智能 达摩院
ICASSP 2022 多通道多方会议转录挑战项目(M2MeT)成功举办
近日,ICASSP 2022 多通道多方会议转录挑战(M2MeT)完成了测试集评测及结果公布。本次挑战由阿里巴巴达摩院语音实验室和希尔贝壳联合举办,多位国际知名行业专家包括达摩院语音实验室负责人鄢志杰、研究员马斌,希尔贝壳CEO卜辉,希尔贝壳基金会谢磊教授,美国俄亥俄州立大学汪德亮教授,丹麦奥尔堡大学谭政华教授,上海交通大学钱彦旻教授,新加坡A*STAR资讯通信研究院高级科学家Kong Aik Lee等参与大会组织和评审。
980 0
ICASSP 2022 多通道多方会议转录挑战项目(M2MeT)成功举办
|
Dubbo Java 中间件
阿里巴巴有哪些好玩的分布式开源框架?
开源项目起初由国外一些工程师发起,最著名的开源社区及私有软件项目的托管平台GitHub,由国外Chris Wanstrath创办从一个开发者社区变成了一个免费开源代码托管平台;国内越来越多的公司把自研的一些优秀开源框架贡献出来,阿里巴巴、腾讯、百度、网易、当当、携程等公司都有在github上开源一些优秀的项目。其中阿里巴巴的的开源项目很多,几乎国内所有公司都用过阿里巴巴的一些项目,耳熟能详的如:druid、fastjson。分布式流行的当下,阿里也有众多分布式开源项目,今天主要搜罗一下阿里分布式开源项目。
552 0
|
Web App开发 移动开发 Dart
基于 Flutter 的 Web 渲染引擎「北海」正式开源!
阿里巴巴历时 3 年自研开发的 Web 渲染引擎北海(英文名:Kraken)正式开源,致力打造易扩展,跨平台,高性能的渲染引擎,并已在优酷、大麦、天猫等业务场景中使用。
基于 Flutter 的 Web 渲染引擎「北海」正式开源!
|
JavaScript 前端开发 搜索推荐
「后端小伙伴来学前端了」 Vue中 this.$set的用法 | 可用于修改对象中数组的某一个对象、 可用于更新数据到视图
「后端小伙伴来学前端了」 Vue中 this.$set的用法 | 可用于修改对象中数组的某一个对象、 可用于更新数据到视图
875 0
「后端小伙伴来学前端了」 Vue中 this.$set的用法 | 可用于修改对象中数组的某一个对象、 可用于更新数据到视图
|
SQL 弹性计算 小程序
阿里云新品发布会周刊第43期 丨 战疫期间,钉钉如何抗住暴增的百倍流量?
点击订阅新品发布会! 新产品、新版本、新技术、新功能、价格调整,评论在下方,下期更新!关注更多新品发布会! 热门阅读 1、 战疫期间,钉钉如何抗住暴增的百倍流量? 疫情期间,在线教育、在线办公需求持续井喷,钉钉作为很多企业首选的在线办公软件,用户量激增,特别是钉钉视频会议、直播的需求随之飙升。
3328 0
阿里云新品发布会周刊第43期 丨 战疫期间,钉钉如何抗住暴增的百倍流量?