@digoal
德哥,目前我用四台服务器做了一个1master、3primary、3mirror的集群,额外增加一台做gpfdist服务器。数据入库基本维持在10MB/s,10w行/s。感觉不应该这么慢,但是无法定位问题出在哪里。
服务器配置如下:
主板:DELL C1600
CPU: X5650*2(主频:2.66Ghz,十二核二十四线程)
内存:服务器专用RRD3 REG ECC 32G
硬盘:希捷 2TB 7200转 64M SATA3机械
交换机:千兆
表结构如下,很简单:
数据格式如下:
目前是1小时入库一次,同一天数据入同一个子表,每次创建新的外部表指定唯一外部文件,
单个数据文件大概是100MB-2GB不等,数据行数100万-2000万不等。
每日数据入库全部完成前对应子表不创建索引。
尝试过在两台额外服务器上搭建两个gpfdist,同时入不同表的数据,整体速度并没有提升,互相有影响。
数据入库期间观察磁盘IO、cpu、网络带宽都有很大空闲。内存倒是基本都用了,但top查看繁忙进程,内存使用并不高,都是shared_buffer,work_mem等参数限定的大小。
单个子表随数据量的增大,入库速度会越来越慢。
期间也调过一些gp的参数,效果都不明显。
麻烦您帮忙分析下,是否还有优化空间或者分析瓶颈的方向。
用perf top跟踪一下
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。