《Greenplum企业应用实战》一导读

简介:

image

前 言

为什么写作本书

阿里巴巴是国内最早使用Greenplum作为数据仓库计算中心的公司。从2009年到2012年Greenplum都是阿里巴巴B2B最重要的数据计算中心,它替换掉了之前的Oracle RAC,有非常多的优点。
Greenplum的性能在数据量为TB级别时表现非常优秀,单机性能相比Hadoop要快好几倍。
Greenplum是基于PostgreSQL的一个完善的数据库,在功能和语法上都要比Hadoop上的SQL引擎Hive好用很多,对于普通用户来说更加容易上手。
Greenplum有着完善的工具,相比Hive,整个体系都比较完善,不需要像Hive一样花太多的时间和精力进行改造,非常适合作为一些大型的数据仓库解决方案。
Greenplum能够方便地与Hadoop进行结合,可直接把数据写在Hadoop上,还可以直接在数据库上写MapReduce任务,并且配置简单。
从2010年毕业加入阿里巴巴B2B的数据仓库起,我就开始接触Greenplum数据库,并有幸维护了一年多的Greenplum数据库,积累了很多数据库的相关知识。Greenplum在国内的应用相对比较少,尤其是网上资料相当匮乏。在使用Greenplum的过程中,阿里巴巴遇到了很多困难,也积累了很多宝贵经验。
由于学习资料的匮乏,我和何勇有了将阿里巴巴使用Greenplum的一些经验技巧汇聚成书的想法,这样既总结和沉淀了自身知识,同时也可以给国内使用Greenplum的同行们提供一点帮助。

目 录 

第1章 Greenplum简介
1.1 Greenplum的起源和发展历程
1.2 OLTP与OLAP
1.3 PostgreSQL与Greenplum的关系
1.4 Greenplum特性及应用场景
1.5 小结
第2章 Greenplum快速入门
2.1 软件安装及数据库初始化
2.2 安装Greenplum的常见问题
2.3 畅游Greenplum
2.4 小结
第3章 Greenplum实战
3.1 历史拉链表
3.2 日志分析
3.3 数据分布
3.4 数据压缩
3.5 索引
3.6 小结
中篇 进 阶 篇
第4章 数据字典详解
4.1 oid无处不在
4.2 数据库集群信息
4.2.1 Gp_configuration和gp_segment_configuration
4.2.2 Gp_id
4.2.3 Gp_configuration_history
4.2.4 pg_filespace_entry
4.2.5 集群配置信息表转化
4.3 常用数据字典
4.3.1 pg_class
4.3.2 pg_attribute
4.3.3 gp_distribution_policy
4.3.4 pg_statistic和pg_stats
4.4 分区表信息
4.4.1 如何实现分区表
4.4.2 pg_partition
4.4.3 pg_partition_rule
4.4.4 pg_partitions视图及其优化
4.5 自定义类型以及类型转换
4.6 主、备节点同步的相关数据字典
4.7 数据字典应用示例
4.7.1 获取表的字段信息
4.7.2 获取表的分布键
4.7.3 获取一个视图的定义
4.7.4 查询comment(备注信息)
4.7.5 获取数据库建表语句
4.7.6 查询表上的视图
4.7.7 查询表的数据文件创建时间
4.7.8 分区表总大小
4.7.9 如何分析数据字典变化
4.7.10 获取数据库锁信息
4.8 Gp_toolkit介绍
4.9 小结

相关文章
|
SQL 分布式计算 运维
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
快速学习开源大数据 OLAP 引擎最佳实践
开源大数据 OLAP 引擎最佳实践 | 学习笔记(二)
|
8月前
|
Cloud Native 数据管理 关系型数据库
【阿里云云原生专栏】云原生数据管理:阿里云数据库服务的分布式实践
【5月更文挑战第21天】阿里云数据库服务在云原生时代展现优势,应对分布式数据管理挑战。PolarDB等服务保证高可用和弹性,通过多副本机制和分布式事务确保数据一致性和可靠性。示例代码展示了在阿里云数据库上进行分布式事务操作。此外,丰富的监控工具协助用户管理数据库性能,支持企业的数字化转型和业务增长。
237 1
招商信诺人寿基于阿里云数据库 SelectDB 版内核 Apache Doris 统一 OLAP 技术栈实践
招商信诺人寿基于 Apache Doris 实现 OLAP 技术栈统一,赋能 70 + 一线业务场景实时化
招商信诺人寿基于阿里云数据库 SelectDB 版内核 Apache Doris  统一 OLAP 技术栈实践
|
SQL 分布式计算 运维
面向未来的开源 OLAP 技术架构探讨以及选型实践
本文详细介绍了开源大数据OLAP的演化过程和最佳实践。
9712 1
|
SQL 分布式计算 Cloud Native
带你读《企业级云原生白皮书项目实战》——5.2.4 SQL开发参考
带你读《企业级云原生白皮书项目实战》——5.2.4 SQL开发参考
143 0
|
SQL 消息中间件 分布式计算
开源大数据 OLAP 引擎最佳实践 | 学习笔记(一)
快速学习开源大数据 OLAP 引擎最佳实践
开源大数据 OLAP 引擎最佳实践 | 学习笔记(一)
|
SQL 弹性计算 运维
|
SQL 运维 数据库
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
293 0
课时10: 1月28日-06-数据库生态工具&阿里云数据仓库解决方案及案例
|
SQL 存储 分布式计算
开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考
开源实践 | OceanBase 在红象云腾大数据场景下的实践与思考
280 0