Sybase到GreenPlum迁移的POC

简介: 借客户数据,一次GreenPlum的POC体验

应客户一次需求,去客户现场做了次GreenPlum的POC。

GreenPlum环境是

  •    1台master
  •    6台segment host,每个host上2个segment实例

不过GreenPlum是装在一个有hadoop并存的机器上的,硬件资源不是很充足。


整个过程有三部:数据导出、数据导入、Query性能评价

  • 数据导出

   迁移的对象从Sybase导出数据。

   这里主要的内容有三个:文字编码转码、导出速度、分隔符的选择


   原来Sybase的编码是CP936,也就是GBK,因为GP/PG的server都不支持CP936,打算转成默认的UTF-8数据。起先用linux的iconv,发现超过20M的文件,就会转码失败。好在后来用kettle转码比较正常。

  sybase的bcp导出数据,有些慢。刚好周末两天,开了多个终端,同时导出,计划七天的数据,两天就做完了。

   至于分隔符,理想的是不可见字符,当时对PG的转义没搞清楚,暂时用了^。数据大都是从业务系统过来的,不会输入这样的内容

  • 数据load

   因为GP的一个亮点就在于IO的分离和并行。数据load过程也能体验到这种效果,所以数据load也作为POC内容。

   导出数据的存放,先后用了三种方式

   1.数据放在master上,从master导入数据 非常慢

   2.数据散落在6个segment host上,使用gpfdist启动服务,速度大幅改善

   3.找了一台独立的机器,使用gpdist服务,因为IO并行做的好,速度是最理想的


load是用的外部表的方式

   insert into 实表 select * from 外部表;

产生的错误不多,低于万分之一。


  • query

   实际query测试了下,性能跟sybase差不多。

   主要原因是GP的硬件资源没有配置好。

   1) segment实例太少,CPU多核没有充分利用

   2) 内存资源不足,mem长时间都是0的

   3)通过gpcheckperf来看,磁盘的IO也是很差的,读的速度只有80M/s


而query本身的特征,也存在分表的可能性。



    



   

目录
相关文章
|
6月前
|
安全 数据库 数据安全/隐私保护
当OceanBase数据库报告zip错误时
【2月更文挑战第12天】当OceanBase数据库报告zip错误时
44 1
|
存储 关系型数据库 MySQL
达梦(DM)数据迁移工具
讲述达梦数据库迁移工具使用
|
6月前
|
Oracle 关系型数据库 数据库
postgresql|数据库|数据迁移神器ora2pg的安装部署和初步使用
postgresql|数据库|数据迁移神器ora2pg的安装部署和初步使用
191 0
|
3月前
|
SQL 关系型数据库 MySQL
OceanBase 的 SQL 兼容性与优化
【8月更文第31天】随着分布式计算的发展,越来越多的企业开始采用分布式数据库来满足其大规模数据存储和处理的需求。OceanBase 作为一款高性能的分布式关系数据库,其设计旨在为用户提供与传统单机数据库类似的 SQL 查询体验,同时保持高可用性和水平扩展能力。本文将深入探讨 OceanBase 的 SQL 引擎特性、兼容性问题,并提供一些针对特定查询进行优化的方法和代码示例。
233 0
|
Oracle 关系型数据库 MySQL
OceanBase 数据库的企业版提供了 Oracle 到 MySQL 的迁移工具
OceanBase 数据库的企业版提供了 Oracle 到 MySQL 的迁移工具
149 2
|
SQL 存储 大数据
SQL Server 跨版本数据迁移实践
SQL Server 的导入和导出向导是一个非常有用的工具,可以帮助用户快速导入和导出数据,而无需编写复杂的 SQL 查询或程序代码。使用导入和导出向导,用户可以选择数据源、目标数据、映射源和目标列、指定导入或导出选项以及完成导入或导出操作,整个使用体验也非常简单便捷。
419 0
|
6月前
|
关系型数据库 数据库 PostgreSQL
postgresql|数据库迁移|ora2pg工具的web界面介绍
postgresql|数据库迁移|ora2pg工具的web界面介绍
149 0
|
11月前
|
SQL 关系型数据库 Apache
Microsoft SQL Server 迁移到 PostgreSQL 利器:Babelfish
Babelfish for PostgreSQL 加速了将 Microsoft SQL Server 应用程序迁移到 PostgreSQL 的旅程。Babelfish for PostgreSQL 是一个开源项目,可在 Apache 2.0 和 PostgreSQL 许可下使用。它使 PostgreSQL 能够理解来自 Microsoft SQL Server 编写的应用程序的查询。Babelfish 了解 SQL Server 有线协议和 Microsoft SQL Server 查询语言 T-SQL,此您不必切换数据库驱动程序或重新编写所有应用程序查询。
422 0
|
SQL 监控 安全
从运维的角度分析使用阿里云数据库RDS的必要性--你不应该在阿里云上使用自建的MySQL/SQL Server/Oracle/PostgreSQL数据库
开宗明义,你不应该在阿里云上使用自建的MySQL or SQL Server数据库,对了,还有Oracle or PostgreSQL数据库。 云数据库 RDS(Relational Database Service)是一种稳定可靠、可弹性伸缩的在线数据库服务。
4858 0
|
SQL 监控 数据可视化
解读PostgreSQL Oracle 兼容性之 - performance insight(性能洞察)
标签 PostgreSQL , perf insight , 等待事件 , 采样 , 发现问题 , Oracle 兼容性 背景 通常普通的监控会包括系统资源的监控: cpu io 内存 网络 等,但是仅凭资源的监控,当问题发生时,如何快速的定位到问题在哪里?需要更高级的监控: 更高级的监控方法通常是从数据库本身的
922 0
下一篇
无影云桌面