看云栖说云栖—— 从 DB 到 BD 的桥梁

本文涉及的产品
RDS AI 助手,专业版
RDS MySQL DuckDB 分析主实例,基础系列 4核8GB
RDS MySQL DuckDB 分析主实例,集群系列 4核8GB
简介: 要做大数据?不妨先看看阿里云分析型数据库。

必须认识到,我国社会主要矛盾的变化,没有改变我们对我国社会主义所处历史阶段的判断,我国仍处于并将长期处于社会主义初级阶段的基本国情没有变,我国是世界最大发展中国家的国际地位没有变。
—— 《十九大报告》

拜软硬件技术的发展所赐,很大一部分想要做“大数据”的用户,现在用阿里云分析型数据库(ADS)其实就已经够用了。
本文内容取自2019年杭州阿里云栖大会《下一代云数据分析专场》。

趋势分析和产品发布,趋势有这些:

  • 市场趋势:2020年全球数据规模约为40zB,2025年要增长430%;2023年,75%的数据库都在云上;2022年新业务将会采用实时分析的比例达到50%
  • 技术趋势:从单机进化到分布式架构;OLTP(在线事务处理)和OLAP(在线数据分析)将融合,HTAP(离线分析和在线数据处理混合负载)成为主流;支持多可用区的大规模扩展、支持极速恢复和复制,数据分析也要云原生;结构化数据和非结构化数据将能够融合分析;云边一体化的数据分析将覆盖边缘计算节点;云分析产品架构从使用传统硬件到使用软硬件一体化的架构

发布了两个产品,其中一个是基于MySQL的AnalyticDB from MySQL 3.0(ADS for MySQL),有这些更新:

  • 云原生架构,基于容器技术
  • MySQL兼容性提升
  • 支持从GB级升级到100PB级
  • 写入性能提升50%、查询性能提升40%。
  • 读写强一致,写入数据立即可见
  • 数据更可靠,支持只读实例,同城容灾。

还有一个是基于PostgresSQL的AnalyticDB for Greenplum 6.0版本(ADS for PostgreSQL),这个产品目前正在公测中,12月30日结束公测并正式商用,这个版本的更新有这些:

  • HTAP混合负载、支持更高并发,更快写入和更新性能,典型 OLTP 场景 TPC-C 达到 10w tpmc;Sysbench 支持 select 15w tps, insert 5w tps,update 2w tps。支持全局死锁检测。
  • 更多新特性、针对数仓中的维度表,通过建立复制表(DISTRIBUTED REPLICATED clause),可以大量减少数据传输,提升查询效率;ZSTD压缩算法,较之前 zlib 压缩算法,提升三倍的压缩和解压性能。

Greenplum 6.0到底有哪些升级?还是由Greenplum的开发者来来说说吧,阿里邀请到了来自Pivotal 的Greenplum 研发总监姚延栋做了《全新的Greenplum 6.0 内核优化解读和7.0展望》的演讲。
Greenplum6.0使用PostgreSQL 9.4内核,主要有以下改善:

  • HTAP性能提升,OLTP的性能提升70倍,支持更多的数据类型和SQL特性(大表关联、分组聚集、窗口函数、JSON),让Greenplum从一个OLAP数据库变成了真正可用的HTAP数据库
  • 全新高可用机制、使用PostgreSQL原生的流复制技术,网络开销低。
  • 弹性、支持在线不停机扩容。
  • 支持和机器学习平台集成、包括MADlib、TensorFlow、提供原生R语言支持。

在客户分享环节,阿里云邀请到了在国内排名第三的手机游戏公司莉莉丝(刀塔传奇的开发商,第一名腾讯、第二名网易)做了名为《利用ADB打造游戏行业新一代实时数据运营平台》的演讲。
莉莉丝原来使用复杂的大数据平台进行数据分析,后来切换到ADS,主要原因是:

  • 快、比POLARDB这种OLTP快10倍以上(OLAP场景),比presto也能快数倍,QPS数百到上万。
  • 灵活、节点和配置都可以随时升降,可以随着数据增长逐步升级。
  • 易用、从presto迁移过来,计划没有任何改动成本,mysql迁移大部分语句兼容。
  • 规模扩展、动态弹性扩容至数千节点,可以支撑我们到达腾讯的量级
  • 高并发、从10万TPS到数百万TPS,都可以支撑。

支持MySQL/PostgreSQL语法、可以快速上手、能支撑一个手游公司的大数据平台达到腾讯的量级,还能兼顾在线事务处理。​我想,大多数公司做大数据,阿里云ADS就够用上好一阵子了吧。

相关实践学习
阿里云云原生数据仓库AnalyticDB MySQL版 使用教程
云原生数据仓库AnalyticDB MySQL版是一种支持高并发低延时查询的新一代云原生数据仓库,高度兼容MySQL协议以及SQL:92、SQL:99、SQL:2003标准,可以对海量数据进行即时的多维分析透视和业务探索,快速构建企业云上数据仓库。 了解产品 https://www.aliyun.com/product/ApsaraDB/ads
目录
相关文章
|
1月前
|
人工智能 自然语言处理 搜索推荐
生成式引擎优化(GEO)的深层逻辑:超越内容堆砌的“两大核心+四轮驱动”范式研究
本文旨在深入探讨GEO优化的本质,驳斥其仅为“内容堆砌”的片面认知。
285 15
|
缓存 运维 负载均衡
阿里云运维架构实践秘籍
1. 中国互联网发展编年史 2. 运维 3. 不同云盘单路随机写访问响应时间对比 4. 常见数据库性能对比 5. 常见衡量业务量级别指标 6. 如何根据PV估算服务器数量? 7. 不同业务特性计算模型 8. PV量和服务器配置/RDS配置对应表 9. 服务器CPU/内存配置模型 10. 云盘空间选择 11. 宽带的选择 12. 共享文件存储的方法 13. OSS文件管理 14. OSS数据迁移 15. 缓存 16. Session管理六种策略 17. 分库分表 18. 云迁移步骤 19. 监控方案 20. 云端安全 21. 架构阶段
1317 0
阿里云运维架构实践秘籍
|
存储 Linux Shell
Linux常见根目录详释
- **/home**:存放普通用户的主目录。 - **/root**:超级用户的主目录。 - **/tmp**:存放临时文件。 - **/mnt** 和 **/media**:用于挂载外部存储设备。 - **/boot**:存放启动Linux所需的文件,如内核。 - **/lib** 和 **/lib64**:存放系统运行时需要的库文件。 - **/opt**:存放第三方提供的可选软件包。 - **/srv**:存放服务数据,如Web服务器的数据。 这些目录构成了Linux文件系统的骨架,支持系统的正常运行和管理。
544 12
|
7月前
|
数据采集 新能源 调度
【Copula】基于二元Frank-Copula函数的风光出力场景生成方法【考虑风光出力的不确定性和相关性】(Matlab代码实现)
【Copula】基于二元Frank-Copula函数的风光出力场景生成方法【考虑风光出力的不确定性和相关性】(Matlab代码实现)
324 4
|
安全 Linux 网络安全
如何在 CentOS 7 上为 Apache 创建 SSL 证书
如何在 CentOS 7 上为 Apache 创建 SSL 证书
398 0
|
机器学习/深度学习 并行计算 PyTorch
PyTorch与CUDA:加速深度学习模型训练的最佳实践
【8月更文第27天】随着深度学习应用的广泛普及,高效利用GPU硬件成为提升模型训练速度的关键。PyTorch 是一个强大的深度学习框架,它支持动态计算图,易于使用且高度灵活。CUDA (Compute Unified Device Architecture) 则是 NVIDIA 开发的一种并行计算平台和编程模型,允许开发者直接访问 GPU 的并行计算能力。本文将详细介绍如何利用 PyTorch 与 CUDA 的集成来加速深度学习模型的训练过程,并提供具体的代码示例。
1568 1
|
JavaScript 前端开发 API
NodeJs 后端开发 04 使用axios调用第三方服务API
目录 当我们需要访问其他服务的接口有什么JS库可以使用呢? 先看文档,直接打开Axios Github 编写Axios HelloWorld 创建一个新的NodeJS项目,引入axios包: 发送请求前需要启动商品服务 发送一个GET请求 发送一个POST请求,模拟添加商品数据
1397 0
NodeJs 后端开发 04 使用axios调用第三方服务API
|
NoSQL 编译器 Linux
【Linux】--- Linux编译器-gcc/g++、调试器-gdb、项目自动化构建工具-make/Makefile 使用
【Linux】--- Linux编译器-gcc/g++、调试器-gdb、项目自动化构建工具-make/Makefile 使用
462 0
|
Java Unix 编译器
Java基础6-Java文件和Java包结构和常用的jar包(一)
Java基础6-Java文件和Java包结构和常用的jar包(一)
368 0
|
机器学习/深度学习 算法 计算机视觉
如何利用镜像地址在pycharm中安装OpenCV库
如何利用镜像地址在pycharm中安装OpenCV库
1318 0

热门文章

最新文章