OceanBase社区版4.0正式上线,与企业版同等性能,一键安装两分钟跑通Demo

本文涉及的产品
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
RDS AI 助手,专业版
简介: OceanBase社区版4.0正式上线,与企业版同等性能,一键安装两分钟跑通Demo

OceanBase 社区版 4.0,首个兼容 MySQL 的单机分布式一体化数据库上线

11 月 3 日,2022 年云栖大会现场,OceanBase 社区版 4.0 正式上线(代号:小鱼),定位为 Beta 版本,兼容 MySQL 能力全面开放,与企业版同等性能。


根据测试,
同等硬件环境下,OceanBase 社区版 4.0 Beta 的 TP 性能是 MySQL 企业版 8.0 的 1.9 倍,AP 性能是 Greenplum 6.22.1 的 5 至 6 倍


,时长04:02

OceanBase CTO 杨传辉现场演练社区版 4.0 的 TPC-H 性能。同等硬件环境下(3 台 32C,128G),OceanBase 社区版 4.0 Beta(蓝色)与 Greenplum 6.22.1(橙色)在 22 项复杂查询及并行数据修改任务中的压测时长,柱状图的长度对应任务用时的长度。从测试结果可见,OceanBase 整体性能优于 Greenplum,在并行执行尤其是分区内并行执行上具有明显优势。


据介绍,OceanBase 社区版 4.0 版本在保证功能特性不丢失的前提下,重新审视了数据库与分布式系统两个领域最基础的设计,实现单机分布式一体化架构。由此,从架构上解决了此前版本的设计瓶颈,支持更多用户业务关注的多个核心能力,在内核功能、兼容性、稳定性、性能上取得突破。


易用性方面,OceanBase 社区版 4.0 特别提供了一体化极简安装包,将所有组件提前做好适配测试并给出推荐组合版本,对于刚接触分布式数据库的用户,提供一键安装命令“obd demo”,2 分钟内即可完成 Demo 环境的搭建部署。


GitHub 链接:https://github.com/oceanbase/oceanbase/releases/tag/v4.0.0_CE


本次 Beta 版核心能力如下:


  • 架构升级与受益:支持单机分布式一体化架构,包含自适应日志流、支持超大事务、RTO 时间降低到 8s 以内、NTP 服务依赖优化、支持分区数量能力上限等版本基础核心能力构建。


  • 内核能力增强:Online DDL 能力增强,支持租户级备份,字符集扩展,支持数据编码,支持 IOPS 隔离,LOB 规格上限扩展,支持表锁和死锁检测等。


  • 兼容性增强:支持 DDL 语句的外键约束,支持视图列信息展示,支持 DML 触发器,支持更多 SQL MODE 和函数等。扩展支持 SEQUENCE 对象,支持存储程序,支持 SQL 文本中的预处理,支持自增列做为分区键。


  • 性能提升:Sysbench 性能优化,综合读写性能(Read Write)1024 并发测试性能较 V3.1 版本提升 1 倍;TPC-H 查询性能优化,100GB 数据量顺序执行 22 条 SQL,整体性能较 3.1 版本提升 5 倍。


  • 运维能力提升:支持全链路追踪,支持 SESSION 状态的监控和诊断(ASH),标准化视图优化,支持 Schema History 回收功能,支持自动清空回收站功能等。



OceanBase 社区版 4.0:进一步降低分布式数据库使用门槛


关于数据库发展是集中式还是分布式的争论由来已久,主流观点——或者说稳妥起见,大部分从业者在被问及时都会表示,两者在相当长的时间内将共存,因为各有优点,适用于不同的场景。


但 OceanBase CTO 杨传辉明确指出,他认为「分布式是未来面向云的下一代数据库的基石,未来云数据库的底层都是原生分布式」。


为了让分布式数据库不仅仅适用于可扩展这一细分场景,还要同时具备完整的 SQL 功能和极致的单机性能,OceanBase 提出了「单机分布式一体化」的理念,其架构要求兼具分布式数据库的可扩展性与集中式数据库的功能和单机性能,而产品上则需适用于大企业、中小型公司乃至初创团队在各自不同发展阶段对数据库的不同需求。


2022 年 8 月 10 日,OceanBase 4.0 小鱼(Paetica)发布,单机分布式一体化架构首次亮相。经过 85 天的研发迭代,完成在蚂蚁集团内部和不同行业用户小范围邀测后,本次上线的社区版 4.0 与企业版享有同等性能。下面是 OceanBase 4.0.0(上)与 3.1.4(下)架构示意图对比。



可以发现,OceanBase 4.0 通过引入「自适应日志流」,实现了单机和分布式的融合。


OceanBase 早期版本的架构体系里以分区为基本单元进行操作,当系统内的分区数量达到一定程度后,以分区为单元的操作的消耗也随之增大,逐渐形成了 OceanBase 的使用痛点——单节点支持的分区数量受到限制,单节点上涉及跨分区的数据修改也需要两阶段提交协议来保证事务的原子性等问题。


自适应日志流是一种融合了服务器级静态日志流(典型代表如 MySQL、PostgreSQL)与分区级静态日志流(典型代表如 CockroachDB)的方案:当系统处于稳定状态时,每台服务器的日志流数量是固定的,但发生迁移时这个对应关系会改变,支持将一个分区从一个日志流迁移到另外一个日志流,从而实现在线水平扩展。



例如,在 OceanBase 数据库实例内部有一个均衡层,新建表和新增分区时,系统会按照均衡原则选择合适的日志流创建 Tablet。当租户的属性发生变更,新增了机器资源,或者经过长时间使用后,Tablet 在各台机器上不再均衡时,均衡层通过日志流的分裂和合并操作,并在这个过程中配合日志流副本的移动,让数据和服务在多个服务器之间再次均衡。
这在技术上极具挑战,OceanBase 团队克服了诸多难题,实现了在线水平扩展的同时不增加分布式相关 overhead,从而能像集中式数据库一样部署在小型服务器上,并且单节点性能达到甚至超越集中式数据库的水平。
这也使得 OceanBase 4.0 能够支持机构最初仅使用单机数据库,随着业务压力的变化将数据库集群平滑的从单机扩容到多机,同时具备多机平滑缩容到单机的能力。目前,OceanBase 4.0 将可部署最小规格降低到 4C8G,且未来还会进一步降低


开放 TPC-H 全球前三能力:在确保稳定可靠的 OLTP 基础上,做好 OLAP


MySQL 高可用一直是业内频繁讨论的话题。业界通常采用的方式,如 MySQL 主备复制、MHA(Master High Avaliable),包括 MySQL 官方推荐的 MGR(组复制)方案,在实际使用中都不能很好地解决数据不丢失的问题。


OceanBase 从 0.5 版本开始就将 Paxos 融入到数据库中实现无损容灾,其首创的「RPO = 0,RTO < 30 秒」已经成为数据库行业高可用的事实标准。在单机分布式一体化架构下,OceanBase 4.0 基于全新的自动选主协议和全面的探活机制,进一步将机器故障场景下系统恢复时间降低到 8s 以内,引领故障恢复进入秒级时代


同时,OceanBase 社区版 4.0 全面提升了数据库的读写性能。在 OLTP 场景下,全新设计的融合日志缓冲区将同时支持聚合提交和分布式共识协议,显著减少内存拷贝和 CPU 指令开销,大幅度提升交易处理能力。


同等配置下,OceanBase 社区版 4.0 Beta 与 MySQL 企业版 8.0 的 TP 性能对比。


OceanBase 在企业版 3.2.3 全面实现了向量化引擎,以 Architecture aware 的设计,改造了全部的算子和绝大部分常用的执行表达式,充分发掘现代 CPU 的 cache 特性以及优化指令。向量化带来了大量的算法优化可能,通过在向量化的框架下进行算法和数据结构优化,实测整体执行性能相比原先非向量化执行引擎性能提升普遍在 4-5 倍,很多算子和单场景可获得 10 倍以上的性能提升。


基于这一能力基础,OceanBase 向国际数据库决策支持权威基准 TPC-H Benchmark 发起挑战,并在 2021 年 5 月 21 日,以 1526 万 QphH 成绩打破世界纪录,登顶 TPC-H 权威榜单。现在,向量化引擎及行列混存的能力已全部融入 OceanBase 社区版 4.0。


从测试结果可见,同等硬件环境下,OceanBase 社区版 4.0 Beta 的 TPC-H 性能优于 Greenplum 6.22.1。


HTAP 混合事务与实时分析处理是行业内强诉求,大型企业往往会选择多款数据库产品分别支持 OLTP 和 OLAP 类应用场景,这种组合式的解决方案需要数据在不同系统间流转,数据同步过程会带来时间延迟和数据不一致的潜在风险,还会产生数据冗余推高成本。


OceanBase 希望尽可能用一套数据库满足不同场景的需求,并且认为:真正的 HTAP 要先有高性能的 OLTP,然后在 OLTP 的基础上支持实时分析。换句话说,OLTP 是基础,没有足够强的 OLTP,OLAP 无从谈起。


OceanBase 的 OLTP 能力已经有目共睹,4.0 架构通过自适应日志流弥合了单机和分布式的架构差异,通过类 LSM Tree 架构在一套系统中实现 OLTP、实时 OLAP、Key-Value、JSON、GIS 等多种数据模型的处理,从根本上保持数据的一致性,并最大程度降低数据冗余,实现了「基于一个系统、一份数据、一个引擎,同时支持 OLTP + OLAP 工作负载」,帮助企业大幅降低总成本。


除了在计算层开源向量化引擎,存储层也开源了数据编码能力。OceanBase 通过数据编码压缩技术实现了数据的高压缩比,本次开源多种数据编码方法,包括字典编码、RLE 编码、常量编码、差值编码、前缀编码、列间编码等,并支持每一列自动选择最合适的数据编码。通过编码和压缩,使用相同的块大小(16KB)以及相同的压缩算法(lz4),同样的数据存放在 OceanBase 中,要比在 MySQL 5.7 中平均节省一半的空间,同时没有损失任何查询性能。


OceanBase CTO 杨传辉表示,除了「小就是大」,OceanBase 社区版 4.0 还有一个充满寓意的代号叫「从小到大」,既能支持大企业,也能够支持中小企业,甚至是初创企业,能够从小到大支持企业全生命周期的数据库需求,帮助企业更好的降本增效以及做数据库的业务创新。


「既能够支持在分布式多机场景,也能够支持应用在单机场景,既能用在一些比较大规格的高配置的机器,也能够用在低配置的机器,既能用在关系型的数据模型,也能够用在多模的模型,既能够处理 OLTP 核心业务场景,也能够用来处理 OLAP 实时分析场景……让企业能够实现一次选择,终身受用。」


云化能力加强:全托管的 OceanBase Cloud 4.0 开启邀测


云栖大会现场演讲的最后,杨传辉还宣布,全托管的 OceanBase Cloud 4.0 也正式开放邀测,新的功能和特性包括:


更多的部署规格:从4C16G到8C32G,到16C64G,再到42C400G,乃至多机分布式部署;


更强的降本增效:TP性能相比之前的版本提升50%,AP性能也得到大幅度的提升,并且有更好多租户隔离能力;


更好的运维体验:支持全链路诊断的能力、数据迁移的可观测性等。


根据 GitHub 统计数据,本次新版本的上线让 OceanBase 在项目活跃度上有了一个明显的提升。下图为过去一年 OceanBase (绿)、PostgreSQL (橙)、TiDB (蓝) 的 GitHub Commits 情况。


从过去一年 GitHub Commit 数据统计看,本次 OceanBase 社区版 4.0 上线让其项目活跃度有了明显的提升。来源:GitHub Stats,2022 年 11 月 06 日 19:00,下同


自 2021 年 6 月开源后,OceanBase 的 GitHub 单日最高 Star、Fork 和 Commit 数值,均明显高出 PostgreSQL 等流行数据库,充分证明了开发者对 OceanBase 给予的热情和期望。


过去一年三者的 GitHub Star 情况。


过去一年三者的 GitHub Fork 情况。


当然,每个版本走向成熟都离不开大量真实业务场景的打磨。OceanBase 还需要进一步的持续完善,才能实现他们的目标——把单机分布式一体化架构做成数据库的主流。


但是,你我感受中国自研原生分布式数据库的技术,以及加入到构建这样一个生态的过程,现在就可以开始了。


OceanBase 社区版 4.0 Beta GitHub 链接:https://github.com/oceanbase/oceanbase/releases/tag/v4.0.0_CE

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
相关文章
|
存储 弹性计算 关系型数据库
5 分钟玩转 OceanBase 社区版 Docker 部署
## 简介 本文是个人把 OceanBase 社区版 3.1 做了一个 Docker 镜像,仅用于学习研究。只要你有一个 4C10G的笔记本可以联公网,你就可以在5分钟内将 OceanBase 社区版跑起来。 OceanBase 社区版是今年 6月1日开源的,只兼容 MySQL,可以理解为分布式的MySQL。其核心功能跟内部业务在用的OceanBase 企业版基本一致。核心功能包含:**多副
4158 0
5 分钟玩转 OceanBase 社区版 Docker 部署
|
2月前
|
人工智能 自然语言处理 安全
Lux 上手指南:让 AI 直接操作你的电脑
Lux 是一款能直接操作计算机的AI基础模型,通过视觉理解与动作预测,实现自然语言指令下的自动化任务。它无需依赖API,可像真人一样点击、输入、滚动,完成浏览器操作等复杂工作,准确率超越主流模型,是迈向“意图即执行”的重要突破。(238字)
565 13
Lux 上手指南:让 AI 直接操作你的电脑
|
10月前
|
监控 安全 测试技术
选择Postman免费版还是付费版,进行 API 测试呢?
深入了解 Postman 免费版和付费版的细节,看看哪一个更适合您的 API 需求。
|
10月前
|
存储 缓存 NoSQL
阿里云服务器实例规格选型:八大业务场景精准选型参考
阿里云提供了丰富多样的云服务器实例规格,以满足不同用户的多样化需求。然而,面对琳琅满目的实例选项,许多初次接触云服务器的用户往往感到无所适从。本文旨在帮助用户根据自身的业务场景和细分需求,精准选择最适合的阿里云服务器实例规格,确保资源的有效利用和成本的合理控制。
|
12月前
|
机器学习/深度学习 监控 数据可视化
DeepSeek模型解释与可视化
深度学习模型常被视为“黑盒”,其决策过程难以理解,但在医疗、金融等高风险领域,理解模型决策至关重要。DeepSeek提供多种工具和方法,帮助解释和可视化模型的决策过程。本文介绍如何使用DeepSeek进行特征重要性分析、中间层可视化、局部解释(如LIME和SHAP)及训练过程监控,并通过代码示例详细讲解这些技巧,助力你掌握模型解释与可视化的方法。
|
C++
【洛谷 P2241】统计方形(数据加强版)题解(循环枚举)
该题目是1997年普及组的一道编程题,要求计算$n\times m$棋盘中的正方形和长方形数量(不计正方形)。输入包含两正整数$n,m\leq 5000$。输出为一行,两个正整数分别表示正方形和长方形数量。示例输入`2 3`,输出`8 10`。解题思路是将矩形数拆分为正方形数和长方形数,然后通过双重循环计算。AC代码使用C++编写,通过累加方法得出结果。
288 0
|
存储 安全 Linux
离线Linux服务器环境搭建
【9月更文挑战第3天】在离线环境下搭建Linux服务器需按以下步骤进行:首先确定服务器用途及需求,准备安装介质与所需软件包;接着安装Linux系统并配置网络;然后设置系统基础参数,如主机名与时区;安装必要软件并配置服务;最后进行安全设置,包括关闭非必要服务、配置防火墙、强化用户认证及定期备份数据。整个过程需确保软件包的完整性和兼容性。
487 3
|
前端开发
HTML+CSS 速成10分钟!一键实现你的后台管理系统首页梦想!
HTML+CSS 速成10分钟!一键实现你的后台管理系统首页梦想!
|
关系型数据库 Serverless 分布式数据库
阿里云 Serverless 高可用架构
阿里云的《卓越效能,极简运维,Serverless高可用架构》解决方案提供了全托管服务、自动扩展、高可用性、无缝集成以及内置安全等核心功能。该方案通过免除底层基础设施的管理,允许用户专注于应用程序开发,同时确保应用的稳定运行和资源的有效利用。 **核心功能简介**: - **全托管服务**:用户无需关心底层硬件,由阿里云负责维护和扩展计算资源。 - **自动扩展**:根据业务需求自动调整资源,确保应用在高峰期有足够的计算能力,低谷期则节省成本。 - **高可用性**:多地域和多可用区部署,实现故障自动切换,确保业务连续性。 - **无缝集成**:与阿里云的其他服务(如数据库、消息队列等)深度
|
搜索推荐 定位技术 vr&ar
科技助力医疗:医院AR导航系统的实际应用与效益分析
在快节奏的现代医疗环境中,患者与医护人员对高效、便捷的院内导航需求日益增长。随着科技的飞速发展,传统的纸质地图已难以满足复杂多变的医疗空间需求。在此背景下,集成AR(增强现实)技术的院内导航系统应运而生,以其独特的优势和创新功能,正逐步成为智慧医院建设的重要组成部分。
524 0
科技助力医疗:医院AR导航系统的实际应用与效益分析

热门文章

最新文章