文档备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

大数据计算MaxCompute优化后速度没变，在哪里调整并发？

大数据计算MaxCompute优化后速度没变，在哪里调整并发？
之前用to_pandas方法下载到本地来处理，4万数据跑了3个小时。现在改了PyODPS Dataframe来处理，目前估算的时间，貌似也没比原来快很多。不知道是不是没有设置并发的原因

展开

收起

你鞋带开了~ 2024-02-26 12:32:24 309 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在MaxCompute中，您可以通过设置系统参数来调整并发度，以提高数据处理速度。以下是一些可以调整的参数：
1. 调整Mapper的split size：您可以通过设置odps.sql.mapper.split.size参数来调整每个Mapper读取数据的大小。这个参数的默认值通常是256MB，您可以根据实际情况调整这个值，以优化并发度和处理速度。
2. 使用split size hint：MaxCompute提供了split size hint的方式，允许您针对单个读表操作来调整并发度。例如，您可以设置split size大小为1MB，这样的hint会指示系统如何分配并发任务。
3. 调整其他系统属性：您还可以通过设置其他Session级的常用属性来优化性能，例如odps.stage.mapper.split.size等。
此外，如果您使用的是DataWorks进行数据集成，那么您还可以考虑使用离线同步或实时同步的方式来优化数据同步过程。

请注意，调整这些参数时需要考虑到您的具体业务场景和数据量大小，以及MaxCompute集群的资源状况。建议您先在小数据集上进行测试，找到最佳的配置，再应用到大规模数据处理中。如果调整后仍然没有明显的速度提升，可能需要进一步分析数据处理流程中的瓶颈，或者咨询MaxCompute的技术支持以获得更专业的指导。
2024-02-26 13:04:36

赞同展开评论

问答分类：

分布式计算 MaxCompute 大数据云原生大数据计算服务 MaxCompute

问答标签：

云原生大数据计算服务 MaxCompute优化云原生大数据计算服务 MaxCompute MaxCompute 大数据计算云原生大数据计算服务 MaxCompute 大数据云原生大数据计算服务 MaxCompute优化大数据计算云原生大数据计算服务 MaxCompute优化

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

1577

1

0

大数据计算MaxCompute一个几百万的表和一个几千的表，有什么方法优化吗？

175

1

0

大数据计算MaxCompute现在没有按量买cpu了吗？我目前优化的还是按量消费闲时版

177

1

0

大数据计算MaxCompute这个能帮我看看看怎么优化下？

187

1

0

RDMA技术的主要优势是什么？它如何帮助大数据分布式计算优化？

450

1

0

在大数据计算MaxCompute只是想限制下并发，不要同时运行太多，这个有法解吗？

196

1

0

大数据计算MaxCompute的udf可以控制并发调用量嘛？

282

1

0

MaxCompute这个语句该怎么优化呀？

177

1

0

大数据计算MaxCompute进度卡在33% 半小时了，怎么优化？

192

1

0

MaxCompute通过OTS外部表导入数据如何增加并发

206

1

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

相关文章

阿里云人工智能平台PAI对接完全指南：从入门到生产级部署

从原始AI回答到可分析指标：数据清洗与口径统一流程

如何用数字化工具沉淀运营数据？2026让管理决策告别“经验驱动”

仓储管理数字化升级解析：从条码扫描到RFID智能识别的技术演进

2026免费BI产品选择指南，真实测评与推荐

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请问下大数据计算MaxCompute dataworks是否有全局变量？

大数据计算MaxCompute用kettle的转换功能去进行odps的同步数据可行吗？

大数据计算MaxCompute这种mapjoin构建hash table时间很长，有什么优化方向吗?

关于MaxCompute 中的CU为什么设置CPU和内存的比例是1:4

大数据计算MaxCompute该字段类型从tinyint改为Int,怎么修改?

今天用实时同步同步了 RDS 数据到 MaxCompute，任务运维上显示成功，看日志也没有问

咨询一下，我配置了MySQL实时同步到MaxCompute的任务，但MySQL数据更新后，MaxCo

大数据计算MaxCompute作业运维排序报错，如何解决？

在大数据计算MaxCompute中，这种多久能查询到？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

优酷背后的大数据秘密

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

【转载】时隔一年多，我又用起了 Superset

展开全部

还有其他疑问?