备案控制台

开发者社区大数据与机器学习大数据计算 MaxCompute 正文

DAG 2.0 的资源动态配置能力，怎样帮助平台的TF作业选择合理的 GPU 类型资源以及提高 GP

已解决

DAG 2.0 的资源动态配置能力，怎样帮助平台的TF作业选择合理的 GPU 类型资源以及提高 GPU 资源的利用率？

展开

收起

游客lmkkns5ck6auu 2022-08-10 11:19:22 508 版权

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

1 条回答

写回答

取消提交回答

游客c3gxxcx6cqeyo

推荐回答

在 DAG2.0 的框架上，PAI TF GPU 作业（见 session 2.2.2 的 dynamic PS DAG）引入了一个额外的“计算控制节点”，可以通过运行 PAI 平台的资源预测算法，来判断当前作业实际需要的 GPU 资源类型，并在必要的时候，通过向 AM GPU 类型。这其中资源预测算法，可以根据算法的类型，数据的特点，以及历史作业信息来做 HBO (history based optimization)，也可以通过 dry-run 的方法来进行试运行，以此确定合理的资源类型。

具体实现上，这个场景中 control stage 与 worker 之间通过 concurrent edge 连接，这条边上的调度触发条件是在 control stage 已经做出资源选择决定之后，通过其发出的事件来触发。这样的作业运行期间的动态资源配置，在线上功能测试中，带来了 40% 以上的集群 GPU 利用率提升。作为物理特性一个重要的维度，对计算节点的资源特性在运行时的动态调整能力，在 PAI 以及 MaxCompute 上都能找到广泛的应用。以 MaxCompute SQL 为例，对于下游节点的 CPU/Memory 的大小，可以根据上游数据的特点进行有效的预判；同时对于系统中发生的 OOM，可以尝试自动调高 OOM 后重试的计算节点的内存申请，避免作业的失败等等。

以上内容摘自《“伏羲”神算》电子书，点击https://developer.aliyun.com/topic/download?id=873

2022-08-10 18:21:53

赞同展开评论

问答分类：

异构计算云原生大数据计算服务 MaxCompute GPU云服务器

问答标签：

GPU云服务器资源配置GPU云服务器 GPU云服务器配置 GPU云服务器平台 GPU云服务器类型

问答地址：

开发者社区 > 大数据与机器学习 > 大数据计算 MaxCompute > 问答

相关问答

千问Qwen3 32B大模型部署需要什么配置的GPU服务器？

1313

1

0

阿里云服务器GPU计算型 gn7i，ecs.gn7i-4x.16xlarge配置怎么样？

166

1

0

千问Qwen3 14B大模型部署最低配置GPU服务器要求？

1157

1

0

modelscope-funasr的GPU离线转写服务的说话人识别模块要怎么配置啊？

273

0

0

如何配置一台搭载GPU的阿里云服务器以运行深度学习任务？

443

2

0

机器学习PAI在 Pai 上做向量检索的时候报了这个错，但是我的脚本并没有 gpu 相关的配置链接？

112

1

0

要做3D渲染使用哪种类型的GPU更好？

110

0

0

GPU资源如何计费？如果不调用，会产生费用吗？

325

1

0

HybridBackend是如何解决GPU资源利用不充分的问题的？

77

1

0

配置GPU 8*A10可以多给我几个选择项吗？

112

0

0

大数据与机器学习

大数据计算 MaxCompute

MaxCompute（原ODPS）是一项面向分析的大数据计算服务，它以Serverless架构提供快速、全托管的在线数据仓库服务，消除传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您经济并高效的分析处理海量数据。

我要提问

收录在圈子:

阿里巴巴大数据计算

347744

+ 订阅

MaxCompute 是面向分析的企业级 SaaS 模式云数据仓库，以 Serverless 架构提供快速、全托管的在线数据仓库服务，消除了传统数据平台在资源扩展性和弹性方面的限制，最小化用户运维投入，使您可以经济并高效的分析处理海量数据。数以万计的企业正基于 MaxCompute 进行数据计算与分析，将数据高效转换为业务洞察。

相关文章

阿里云服务器最新优惠价格表：含 ECS、轻量、GPU 配置及收费标准

阿里云轻量应用服务器、ECS 云服务器、GPU 服务器收费标准最新整理2026

阿里云服务器租用费用：最新价格整理，38元一年起

阿里云 Tair 联手 SGLang 共建 HiCache，构建面向“智能体式推理”的缓存新范式

云服务器租用价格多少钱一年？阿里云服务器租用费用价格表，一年、一个月和1小时报价明细

热门讨论

热门文章

ODPS 的下一个15年，大数据将迎来春天还是寒冬？

请教个大数据计算MaxCompute问题，报这个错误是啥情况？

Dataworks中MaxCompute表怎么创建唯一索引啊?

请问大家一般而言，在做技术选型的时候，会怎么选择 EMR 和 MaxCopmute ？

sparksql中cte物化方式是怎样的

在大数据计算MaxCompute中，这要怎么修改字段类型？

大数据计算MaxCompute中maxcompute spark如何读取 oss 上面的文件？

大数据计算MaxCompute阿里云一个CU对应多少cpu和内存？

MaxCompute运行代码时，报错OpenJDK 64-Bit Server VM warning，如何解决？

MaxCompute在d2中使用python3调用阿里云的通义千问api接口，报错如下：貌似无法？

展开全部

大数据环境下该如何优雅地设计数据分层

odps是什么?

MaxCompute执行作业慢的原因排查

阿里云MaxCompute（大数据）公开数据集---带你玩转人工智能

吴刚专访--大数据和 MaxCompute 技术和故事

2017杭州云栖大会FAQ（持续更新中）

Python+大数据计算平台，PyODPS架构手把手教你搭建

【大数据干货】轻松处理每天2TB的日志数据，支撑运营团队进行大数据分析挖掘，随时洞察用户个性化需求。

干货：解码OneData，阿里的数仓之路。

[大数据新手上路]“零基础”系列课程--如何将ECS上的Hadoop数据迁移到阿里云数加·MaxCompute

展开全部

还有其他疑问?