数据库技术:关系型数据库设计总结

本文涉及的产品
云原生数据库 PolarDB MySQL 版,通用型 2核8GB 50GB
云原生数据库 PolarDB PostgreSQL 版,标准版 2核4GB 50GB
简介: 关系型数据库简介关系数据库由由埃德加·科德(IBM)在1969年左右提出。自推出后就成为商业应用的主要数据库模型(与其他数据库模型,如分级、网络或对象模型相比)。

关系型数据库简介

关系数据库由由埃德加·科德(IBM)在1969年左右提出。自推出后就成为商业应用的主要数据库模型(与其他数据库模型,如分级、网络或对象模型相比)。如今已有许多商业关系数据库管理系统(RDBMS),如Oracle,IBM DB2和Microsoft SQL Server等;也有许多免费的开源关系数据库,如MySQL,mSQL(mini-SQL)和嵌入式JavaDB(Apache Derby)等。

关系数据库将数据存储在表(table)中,一个表由行和列组成。行称为记录(record)或元组(tuple),列称为字段(field)或属性(attribute)。数据库的表类似于电子表格。不过关系数据库可以在这些表格中产生关联,使得可以有效地存储大量的数据,以及高效地检索数据。

SQL(结构化查询语言)通常用来对关系数据库进行操作。

关系型数据库设计步骤

数据库的设计对经验的要求比理论要高,因为你必须做出许多选择。数据库通常是为了某种应用需求而高度定制的,因此,在数据库设计的指导里,通常都是指出不要做什么而不是要做什么,但最后的决定权还是在设计者的手中。

1. 需求分析

在进行需求分析时,需要尽可能地收集需求,以及定义你的数据库的最终目的。 比如要开发书店查询应用,就要先知道应用有什么需求,包括如何添加书籍,如何查询现有书籍,如何查询订单,如何定义生成报告格式等等。

在这个阶段的分析中,在纸上画出输入表单,以及查询和报告的草图,通常会有不少帮助。

2. 收集数据,组织表并设定主键

在明确数据库设计需求后,接下来就要确定有哪些数据需要存储到数据库中。

通常我们都是将数据基于分类存储到不同的表中。例如,设计一个书店的数据库,就需要对书本、作者、出版社、顾客以及订单等分类进行分表;同时,对于每个表,则要定义好需要哪些列(记录),以书本为例,则需要有标题、作者、出版社、出版日期、ISBN、价格等信息。

另外,对于每一个表,我们需要选择一列(或者多列)作为主键(primary key)

关于主键

在关系模型中,表不可以含有重复的行,否则会导致检索出现歧义。为保证唯一性,每个表都有某一列(或者多列)作为主键,其目的是可以唯一区分每一行。如果主键只由某列构成,则被称为简单键(simple key),若由多列组成,则称为组合键(composite key)

大多数商业数据库都基于主键来生成索引以提高查询的速度。另外,主键还被用来被其他表用作关系引用(详见下文)。

主键的选取由库的设计者来决定,通常要遵循以下原则:

  • 主键的值必须是唯一的(即不可重复)。
  • 主键不能为空。

另外,对于主键的选取还有一些Best Practice

  • 主键的值不可修改。因为主键可能会在其他表中用来引用,如果改了主键的值,就需要把其他表的引用都更新。
  • 主键可以是任何类型,但最好是整数(效率原因)。
  • 主键最好用简单键,如果一定要用组合键,要尽量用最少的列。

目前的数据库都可以不主动指定主键,而是由于数据库自己添加额外的一列类型为自增整数(AutoNumber)并指定为主键。

3. 建立关系

在关系数据库中包含独立且不相关的表格通常没有太大意义,如果真是这种情况你可以考虑使用NoSQL或者电子表格来存储这些内容。

关系型数据库的核心所在就是“关系”二字,甚至可以说设计关系型数据库的关键就是明确各个表之间的关系

表间关系的类型有如下三种:

  • 一对多(one-to-many)
  • 多对多(many-to-many)
  • 一对一(one-to-one)

一对多

考虑一个族谱关系的例子,一个母亲可能会有0个或多个小孩,但是任意一个小孩都有且只有一个母亲。这样的关系便称为一对多

一对多的关系不能只用一个表来保存,为什么?

以前面的例子来说,我们一开始可能会考虑建立一个名为Mothers的表,其中保存了母亲的信息如年龄,姓名,血型等,对于其下的小孩,可以创建不同的列,如老大,老二,老三等。但这样我们会面临一个问题,即列的数量是不确定的。

换个方向来说,我们可以建立名为Children的表,其中存储小孩的基本信息,以及其母亲的信息。这样看似能满足要求,但是由于不同的小孩可能会有相同的母亲,因此表中的重复数据是很多的。

因此,考虑支持一对多的数据库关系,我们应该建立两个表,分别为Mothers和Children,只保存各自的属性,并且设置分别的主键为MotherID和ChildrenID。然后我们可以通过在Children新建一列包含MotherID建立一对多的关系,如下图所示:

一对多

其中,Children表中的MotherID列又被称为约束或外键(Foreign Key),用SQL描述如下:

CREATE TABLE Mothers (
    MotherID INTEGER NOT NULL AUTO_INCREMENT,
    Name VARCHAR(100) NOT NULL,
    Age SMALLINT NOT NULL,
    BloodType VARCHAR(2) NOT NULL,
    PRIMARY KEY (MotherID)
);

CREATE TABLE Children (
    ChildrenID INTEGER NOT NULL AUTO_INCREMENT,
    MotherID INTEGER NOT NULL,
    Name VARCHAR(100) NOT NULL,
    Age SMALLINT NOT NULL,
    Sex VARCHAR(50) NOT NULL,
    BloodType VARCHAR(2) NOT NULL,
    PRIMARY KEY (ChildrenID),
    FOREIGN KEY (MotherID) REFERENCES Mothers(MotherID)
);

多对多

考虑一个“产品销售”数据库的例子,某个客户的订单包含一个或者多个产品,而某个产品又可能出现在多个订单之中,
这样的关系便称为是多对多的。

为了构建这样的关系,我们先从两个表订单Orders和产品Products开始看。表Products含有关于产品的信息(如名称、介绍、库存)以及一个主键ProductID;表Orders则包含订单信息(如客户ID、订单日期、订单状态)以及主键OrderID。同样地,我们没法简单地将所有购买的产品保存在订单表里,因为订单所包含的产品记录是不固定的;同理,也没法将所有关联订单保存在产品表里。

因此,为了支持这种多对多的关系,我们需要第三个表。在本例子中,姑且将其命名为OrderDetails,其中每一行都包含了特定的订单信息,对于这个表,主键应为组合键,包含两列信息, 分别为OrderID和ProductID,而这两列也是对应Orders和Products表的Foreign Key,如下图所示:

一对多

用SQL描述如下:

CREATE TABLE Orders (
    OrderID INTEGER NOT NULL AUTO_INCREMENT,
    OrderDate DATETIME DEFAULT CURRENT_TIMESTAMP,
    CustomerID INTEGER NOT NULL,
    PRIMARY KEY (OrderID)
);

CREATE TABLE Products (
    ProductID INTEGER NOT NULL AUTO_INCREMENT,
    Name VARCHAR(100) NOT NULL,
    Stock INTEGER DEFAULT 0,
    PRIMARY KEY (ProductID)
);

CREATE TABLE OrderDetails (
    OrderID INTEGER NOT NULL,
    ProductID INTEGER NOT NULL,
    FOREIGN KEY (OrderID) REFERENCES Orders(OrderID),
    FOREIGN KEY (ProductID) REFERENCES Products(ProductID),
    PRIMARY KEY (OrderID, ProductID)
);

事实上,多对多的关系是以两组一对多的关系来实现的,额外引入的表被称为junction table即连接表。从上面的例子可以看到,每个产品(product)都会在OrderDetails表里出现多次,但OrderDetails里的每一行都只包含一个产品,若每个订单有多个产品则用多行来表示。相应地,对订单(Order)也是类似。

一对一

考虑一个“产品信息”数据库,其中除了产品名称,产品数量等基本信息外,还需要保存产品图片,产品详细等富文本详情信息,一个产品只有0个或者一个详情,一个详情有且只对应一个产品,因此这类关系就可以归类为一对一关系。有些数据库限制了列的数量,或者我们需要将部分敏感信息用另外的表保存,这些情况都可以引进一对一的关系。

回到前面的例子,我们需要分裂出一个称为ProductDetails的表,与Products构成一对一的关系。

用SQL描述如下:

CREATE TABLE Products (
    ProductID INTEGER NOT NULL AUTO_INCREMENT,
    Name VARCHAR(50) NOT NULL,
    PRIMARY KEY (ProductID)
);

CREATE TABLE ProductDetails (
    ProductID INTEGER NOT NULL AUTO_INCREMENT,
    DetailInfo VARCHAR(65535),
    FOREIGN KEY (ProductID) REFERENCES Products(ProductID),
    PRIMARY KEY (ProductID)
);

可以看到在ProductDetails表中,主键和外键都为同一列, 这保证了一对一的正确性。值得一提的是,这里保证了Products
可以对应0个或1个ProductDetails,但ProductDetails必须对应一个Products,如果后者对前者不是强关联,如“丈夫-妻子”
的关系,那么后者可以不以主键作为外键,而是以另外一列声明为UNIQUE的属性作为外键即可。

精炼及规格化

当设计好一个数据库或者拿到已有的数据库时,我们可能会想要:

  • 增加更多的列
  • 为某个表中的可选数据创建一个新表并建立一对一关系
  • 将一个大表分裂为两个小表

在进行这些操作时,下列的规则就可以作为参考。

规范规则(Normalization)

范式(Normal Form),指的是符合某一种级别的关系模式的集合,表示一个关系内部各属性之间的联系的合理化程度,可以在某种程度上认为是一张数据表的表结构所符合的某种设计标准的级别。常见的范式有第一范式、第二范式…第六范式,其严格程度依次上升,一般设计上满足第三范式即可满足日常使用。

第一范式(1NF)

第一范式又称为1NF(First Normal Form),是对关系模式的基本要求,不满足第一范式的数据库就不是关系型数据库。数据库表中的字段都是单一属性的,不可再分。这个单一属性由基本类型构成,包括整型、实数、字符型、逻辑型、日期型等。

同一列中不能有多个值,即实体中的某个属性不能有多个值或者不能有重复的属性。 如果出现重复的属性,就可能需要定义一个新的实体,新的实体由重复的属性构成,新实体与原实体之间为一对多关系。

简而言之,第一范式就是没有重复的列。

第二范式(2NF)

第二范式(2NF)是在第一范式(1NF)的基础上建立起来的,即满足第二范式必须先满足第一范式(1NF)。第二范式要求数据库表中的每个实例或行必须可以被唯一地区分。为实现区分通常需要为表加上一个列,以存储各个实例的惟一标识。

例如,员工信息表中加上了员工编号(EmployeeID)列,因为每个员工的员工编号是惟一的,因此每个员工可以被惟一区分。这个唯一属性列也就是我们之前提到过的主键。

第二范式也要求实体的属性完全依赖于主键。所谓完全依赖是指不能存在仅依赖主关键字一部分的属性,例如含有多列的主键,如前文提到的OrderDetails,主键为ProductID和OrderID,若含有一列为产品单价ProductPrice,则不符合2NF,因为ProductPrice只依赖于ProductID而不依赖于OrderID,因此此属性应该保存在Products表中。

简而言之,第二范式就是属性应完全依赖于其主键。

第三范式(3NF)

满足第三范式(3NF)必须先满足第二范式(2NF)。第三范式要求数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖。所谓传递函数依赖,指的是如果存在”A → B → C”的决定关系,则C传递函数依赖于A。

例如,存在一个部门信息表,其中每个部门有部门编号(DepartmentID)、部门名称(DepartmentName)、部门简介等信息。这样一个表就不是3NF的,因为存在传递依赖(EmplyeeID->DepartmentID->DepartmentName),因此在员工信息表中列出部门编号后就不应再将部门名称、部门简介等与部门有关的信息再加入员工信息表中,而是将这部分数据保存在部门信息表中,如果不存在部门信息表,则根据第三范式也应该构建它,否则就会有数据冗余,并且容易产生更新、插入的异常。

简而言之,第三范式就是任一非主键属性不应依赖于其它任何非主键属性。

完整规则(Integrity)

除了设计范式,我们也可以通过完整性规则(Integrity rules)来检查自己的设计。常见的完整性规则如下:

实体完整性(Entity Integrity Rule)

实体完整性指表中行的完整性。主要用于保证操作的数据(记录)非空、唯一且不重复。即实体完整性要求每个关系(表)有且仅有一个主键,每一个主键值必须唯一,而且不允许为“空”(NULL)或重复。

参照完整性(Referential Integrity Rule)

参照完整性属于表间规则。对于永久关系的相关表,在更新、插入或删除记录时,如果只改其一,就会影响数据的完整性。如删除父表的某记录后,子表的相应记录未删除,致使这些记录称为孤立记录。对于更新、插入或删除表间数据的完整性,统称为参照完整性。通常,在客观现实中的实体之间存在一定联系,在关系模型中实体及实体间的联系都是以关系进行描述,因此,操作时就可能存在着关系与关系间的关联和引用。

域完整性(Domain Integrity)

域完整性是指数据库表中的列必须满足某种特定的数据类型或约束。其中约束又包括取值范围、精度等规定。表中的CHECK、FOREIGN KEY 约束和DEFAULT、 NOT NULL定义都属于域完整性的范畴。

用户定义完整性(User-defined Integrity)

又叫业务逻辑完整性(Business logic Integrity),是对数据表中字段属性的约束,用户定义完整性规则(User-defined integrity)也称域完整性规则。包括字段的值域、字段的类型和字段的有效规则(如小数位数)等约束,是由确定关系结构时所定义的字段的属性决定的。如百分制的考试成绩取值范围在0-100之间,订单数量应该小于等于库存量等。

其他

通常我们可以通过对指定的列创建索引来加快数据库的读取和查询速度。在实现上,索引通常是一个结构化文件,可以提高SELECT的速度,却会对INSERT, UPDATE和DELETE的速度有一定负面影响。如果没有索引,进行一次条件查询(比如SELECT * FROM Customers WHERE name=”Sam”),就需要对整个数据库进行一次线性查找和比较。而在带索引的结构中(如B树),查询的时间就能减少到对数级别。当然在这种情况下,插入和删除的时间也从常数上升到对数级别,不过在实践中由于查找的频率远远大于插入和删除,因此索引带来的好处也是很明显的。

对于特定的表来说,索引可以是1列,多列组合(称为组合索引,Concatenated Index)或者是某列的部分内容(称为部分索引,Partial Index)。在一个表里我们也可以建立多个索引,例如需要经常通过电话号码或者名字来查询某个客户,就可以在这两列建立对应的索引。索引最终还是根据实际需要自行选择,值得一提的是大多数RDBMS都会自动基于主键建立索引。

后记

总结一下,在关系数据库设计中,我们首先要明确设计的最终目标,再根据目标决定哪些数据要持久化存储;对于这些数据,要按照功能和逻辑来进行拆分,并且存放在不同的表中,并且明确之间的关系;对于设计好的表,要进行重构,根据设计范式对大表进行拆分和优化;对于每个表要增加对应的完整性检查,关键是实体完整性和参照完整性;最后在实际使用中,对于高频查询的记录构建索引提升效率,以及其他因地制宜的优化。

相关实践学习
使用PolarDB和ECS搭建门户网站
本场景主要介绍基于PolarDB和ECS实现搭建门户网站。
阿里云数据库产品家族及特性
阿里云智能数据库产品团队一直致力于不断健全产品体系,提升产品性能,打磨产品功能,从而帮助客户实现更加极致的弹性能力、具备更强的扩展能力、并利用云设施进一步降低企业成本。以云原生+分布式为核心技术抓手,打造以自研的在线事务型(OLTP)数据库Polar DB和在线分析型(OLAP)数据库Analytic DB为代表的新一代企业级云原生数据库产品体系, 结合NoSQL数据库、数据库生态工具、云原生智能化数据库管控平台,为阿里巴巴经济体以及各个行业的企业客户和开发者提供从公共云到混合云再到私有云的完整解决方案,提供基于云基础设施进行数据从处理、到存储、再到计算与分析的一体化解决方案。本节课带你了解阿里云数据库产品家族及特性。
目录
相关文章
|
6天前
|
Cloud Native 关系型数据库 分布式数据库
让PolarDB更了解您--PolarDB云原生数据库核心功能体验馆
让PolarDB更了解您——PolarDB云原生数据库核心功能体验馆,由阿里云数据库产品事业部负责人宋震分享。内容涵盖PolarDB技术布局、开源进展及体验馆三大部分。技术布局包括云计算加速数据库演进、数据处理需求带来的变革、软硬协同优化等;开源部分介绍了兼容MySQL和PostgreSQL的两款产品;体验馆则通过实际操作让用户直观感受Serverless、无感切换、SQL2Map等功能。
|
3天前
|
存储 运维 OLAP
【Meetup回顾 第1期】竟是这样的国产数据库,YashanDB技术内幕曝光
YashanDB是一款基于统一内核,支持单机/主备、共享集群、分布式等多种部署方式,覆盖OLTP/HTAP/OLAP交易和分析混合负载场景的新型数据库系统;YashanDB同时提供开发平台、运维平台和迁移平台3大工具平台以满足数据全生命周期管理。
17 2
【Meetup回顾 第1期】竟是这样的国产数据库,YashanDB技术内幕曝光
|
2天前
|
存储 关系型数据库 分布式数据库
PolarDB PostgreSQL版:商业数据库替换与企业上云首选
PolarDB PostgreSQL版是商业数据库替换与企业上云的首选。其技术架构实现存储计算分离,具备极致弹性和扩展性,支持Serverless、HTAP等特性。产品在弹性、性能、成本优化和多模处理方面有显著提升,如冷热数据自动分层、Ganos多模引擎等。已在汽车、交通、零售等行业成功应用,典型案例包括小鹏汽车、中远海科等,帮助企业大幅降低运维成本并提高业务效率。
22 13
|
2天前
|
容灾 关系型数据库 分布式数据库
PolarDB分布式版:与云融合的分布式数据库发展新阶段
PolarDB分布式版标志着分布式数据库与云融合的新阶段。它经历了三个发展阶段:从简单的分布式中间件,到一体化分布式架构,再到云原生分布式数据库。PolarDB充分利用云资源的弹性、高性价比、高可用性和隔离能力,解决了大规模数据扩展性问题,并支持多租户场景和复杂事务处理。零售中台的建设背景包括国家数字化转型战略及解决信息孤岛问题,采用分布式数据库提升高可用性和性能,满足海量订单处理需求。展望未来,零售中台将重点提升容灾能力、优化资源利用并引入AI技术,以实现更智能的服务和更高的业务连续性。
|
4天前
|
关系型数据库 分布式数据库 数据库
瑶池数据库大讲堂|PolarDB HTAP:为在线业务插上实时分析的翅膀
瑶池数据库大讲堂介绍PolarDB HTAP,为在线业务提供实时分析能力。内容涵盖MySQL在线业务的分析需求与现有解决方案、PolarDB HTAP架构优化、针对分析型负载的优化(如向量化执行、多核并行处理)及近期性能改进和用户体验提升。通过这些优化,PolarDB HTAP实现了高效的数据处理和查询加速,帮助用户更好地应对复杂业务场景。
|
2天前
|
存储 关系型数据库 数据库
RDS:稳定、安全、开放的新一代云数据库服务
RDS是阿里云提供的新一代云数据库服务,具备稳定、安全、开放的特点。本次分享由阿里云智能集团和平安科技专家共同介绍,涵盖RDS年度产品发布与最佳实践、金融场景下关系型数据库的要求。重点内容包括RDS通用云盘、RDS On OSS、RDS Custom等技术创新,以及在成本控制、性能优化、业务连续性、数据安全等方面的解决方案。通过实际案例展示了RDS在不同行业的应用,如汇联易、莉莉丝游戏、中免日上等,帮助客户实现高效、低成本的数据库管理。
|
2天前
|
运维 关系型数据库 分布式数据库
阿里云PolarDB:引领云原生数据库创新发展
阿里云PolarDB引领云原生数据库创新,2024云栖大会将分享其最新发展及在游戏行业的应用。PolarDB凭借弹性、高可用性、多写技术等优势,支持全球80多个站点,服务1万多家企业。特别是针对游戏行业,PolarDB助力Funplus等公司实现高效运维、成本优化和业务扩展。通过云原生能力,PolarDB推动游戏业务的全球化部署与快速响应,提升用户体验并保障数据安全。未来,PolarDB将继续探索AI、多云管理等前沿技术,为用户提供更智能的数据基础设施。
|
5天前
|
关系型数据库 Serverless 分布式数据库
瑶池数据库微课堂 | PolarDB Serverless弹性&价格力观测
瑶池数据库微课堂介绍阿里云PolarDB Serverless的弹性与性价比优势。通过瑶池解决方案体验馆,用户可免费实操,直观感受Serverless的秒级弹性及超高性价比。内容涵盖Serverless概念、操作步骤、压测演示及性能曲线分析,展示PolarDB在不同负载下的自动扩展能力。适合希望了解云数据库弹性和成本效益的技术人员。
|
5天前
|
关系型数据库 OLAP 分布式数据库
瑶池数据库微课堂|PolarDB/RDS+ADB Zero-ETL:一种免费、易用、高效的数据同步方式
瑶池数据库微课堂介绍阿里云PolarDB/RDS与ADB的Zero-ETL功能,实现免费、易用、高效的数据同步。内容涵盖OLTP与OLAP的区别、传统ETL存在的问题及Zero-ETL的优势(零成本、高效同步),并演示了从RDS MySQL到AnalyticDB MySQL的具体操作步骤。未来将优化和迭代此功能,提供更好的用户体验。
|
10天前
|
关系型数据库 分布式数据库 数据库
1月17日|阿里云云谷园区,PolarDB V2.0技术沙龙,畅聊国产数据库
为了助力国产化项目顺利推进,阿里云邀请企业开发者和数据库负责人到云谷园区,与PolarDB V2.0技术专家面对面交流。扫描海报二维码报名,我们将根据信息为您申请入园。欢迎参与,共同探讨PolarDB的最新技术和应用!