开发者社区> 问答> 正文

greenplum使用gpfdist导入数据性能问题

@digoal
德哥,目前我用四台服务器做了一个1master、3primary、3mirror的集群,额外增加一台做gpfdist服务器。数据入库基本维持在10MB/s,10w行/s。感觉不应该这么慢,但是无法定位问题出在哪里。
服务器配置如下:
主板:DELL C1600
CPU: X5650*2(主频:2.66Ghz,十二核二十四线程)
内存:服务器专用RRD3 REG ECC 32G
硬盘:希捷 2TB 7200转 64M SATA3机械
交换机:千兆

表结构如下,很简单:
screenshot
数据格式如下:
screenshot

目前是1小时入库一次,同一天数据入同一个子表,每次创建新的外部表指定唯一外部文件,
单个数据文件大概是100MB-2GB不等,数据行数100万-2000万不等。
每日数据入库全部完成前对应子表不创建索引。
尝试过在两台额外服务器上搭建两个gpfdist,同时入不同表的数据,整体速度并没有提升,互相有影响。
数据入库期间观察磁盘IO、cpu、网络带宽都有很大空闲。内存倒是基本都用了,但top查看繁忙进程,内存使用并不高,都是shared_buffer,work_mem等参数限定的大小。
单个子表随数据量的增大,入库速度会越来越慢。
期间也调过一些gp的参数,效果都不明显。
麻烦您帮忙分析下,是否还有优化空间或者分析瓶颈的方向。

展开
收起
postgres_up 2016-01-24 18:21:44 8947 0
1 条回答
写回答
取消 提交回答
  • 公益是一辈子的事, I am digoal, just do it. 阿里云数据库团队, 擅长PolarDB, PostgreSQL, DuckDB, ADB等, 长期致力于推动开源数据库技术、生态在中国的发展与开源产业人才培养. 曾荣获阿里巴巴麒麟布道师称号、2018届OSCAR开源尖峰人物.

    用perf top跟踪一下

    2019-07-17 18:26:19
    赞同 展开评论 打赏
问答分类:
问答地址:
问答排行榜
最热
最新

相关电子书

更多
HBase在时间序列数据库中的应用 立即下载
HTAP DB HTAP DB —System : ApsaraDB HBase Phoenix and Spark 立即下载
PostgresChina2018_余鹏_gogudb—基于FDW实现的PG分库分表插件 立即下载