分析型数据库(AnalyticDB),是阿里巴巴自主研发的海量数据实时高并发在线分析(Realtime OLAP)云计算服务,使得您可以在毫秒级针对千亿级数据进行即时的多维分析透视和业务探索。分析型数据库对海量数据的自由计算和极速响应能力,能让用户在瞬息之间进行灵活的数据探索,快速发现数据价值,并可直接嵌入业务系统为终端客户提供分析服务。
阿里云分析型数据库AnalyticDB(简称ADB),是云端托管的PB级高并发实时数据仓库,是专注于服务OLAP领域的数据仓库。在数据存储模型上,采用关系模型进行数据存储,可以使用SQL进行自由灵活的计算分析,无需预先建模。利用云端的无缝伸缩能力,AnalyticDB在处理百亿条甚至更多量级的数据时真正实现毫秒级计算。
AnalyticDB支持通过SQL来构建关系型数据仓库。具有管理简单、节点数量伸缩方便、灵活升降实例规格等特点,而且支持丰富的可视化工具以及ETL软件,极大的降低了企业建设数据化的门槛。
AnalyticDB是全分布式结构,无任何单点设计,使得数据库实例支持ECU节点动态线性扩容至数千节点。您可以通过横向扩容来大幅度提升查询SQL响应速度、以及增加SQL处理并发。
弹性计算单元(Elastic compute units 简写ECU)是AnalyticDB用来衡量实例计算能力的元单位。
AnalyticDB表组分为两类:维度表组(系统自带)、普通表组
一般会把需要关联的普通表放在相同普通表组中,建议这个表组中的所有普通表的一级分区数一致,join性能会有很大提升。
在表组之下是表的概念,AnalyticDB提供两种类型的表:
维度表
带有维度概念的表(例如银行表),又称为复制表。默认每个ECU节点放置一份全量的维度表数据,所以维度表可以和任何普通表进行关联。由于维度表会消耗更多的存储资源,所以维度表的数据量大小有限制,一般要求维度表单表不超过5000万行。
普通表
普通表就是分区表,为充分利用分布式系统的查询能力而设计的一种表。普通表默认是指一级分区表,如果有增量数据导入需求,可以创建二级分区表。
分区
普通表才有分区的概念,AnalyticDB支持两级分区策略:一级分区采用hash算法,单表数据量在60亿以内,我们推荐您使用一级分区,通常一级分区已足够。二级分区采用list算法,二级分区部分见最佳实践章节。
主键
AnalyticDB的的表必须包含主键字段,通过主键进行记录的唯一性判断。主键由业务id、一级分区键组成,有些情况业务id与一级分区相同。对于记录量特别大的表,从存储空间和insert性能考虑,一定要减少主键的字段数。
AnalyticDB中创建普通表时,每个一级分区下可以包含多个二级分区,其中每个二级分区的分区列值通常为日期格式的bigint数值型,如2015091210。
一级分区列不能是Date或Time类型。二级分区列只能是Bigint类型。
AnalyticDB完全支持弹性扩容和缩容,针对弹性伸缩AnalyticDB做到用户无感知、业务无影响。因为双副本在扩缩容时候是在单个副本上将数据搬迁。
AnalyticDB的实例规格有多种,因此当某个维度遇到瓶颈时不能单独扩容某个维度。扩容的建议如下:
不停服务扩容,在现有资源规格下进行实例个数的扩容。
停服扩容,低规格实例升级到较高规格时,实例的资源状况将发生变化,相应的实例价格也会发生变化。