你好，能帮忙看一下我们这个任务么？大数据计算MaxCompute一直是这个状态，数据都没有读到 Re

你好，能帮忙看一下我们这个任务么？大数据计算MaxCompute一直是这个状态，数据都没有读到 Reduce

展开

收起

真的很搞笑 2023-07-11 17:38:21 166 版权

3 条回答

写回答

取消提交回答

算精通

北京阿里云ACE会长

使用MaxCompute的数据计算功能时遇到了问题，可以提供更多的信息和详情，以便更好地进行分析和解决问题。以下是一些可能有帮助的信息：
任务状态：请提供任务的详细状态信息，包括任务的状态、进度、日志等信息。
数据读取：请提供数据读取的详细信息，包括数据来源、数据读取方式、数据格式等信息。如果有报错信息，请提供报错信息。
代码和配置：请提供相关的代码和配置信息，包括计算程序、SQL语句、作业配置等信息。
环境信息：请提供相关的环境信息，包括MaxCompute版本、使用的计算引擎、计算资源配置等信息。

2023-07-29 13:08:53

赞同展开评论
Star时光
我可以提供一些常见导致任务处于长时间等待或未读取数据到Reduce节点的情况的可能原因和解决方法：
1. 数据倾斜：如果任务中存在数据倾斜的情况，即某个分区的数据量远大于其他分区，会导致数据在Reduce节点上处理时间较长。您可以尝试进行数据均衡处理，例如使用采样、分桶等方法将数据分散到多个分区，减少数据倾斜的影响。
2. 资源不足：任务的执行可能会受到资源限制，例如CPU、内存、并发连接数等。请确保任务所需的资源配额足够满足任务的要求，并且没有超过MaxCompute的限制。
3. 作业调优：对于复杂的计算任务，可能需要进行作业调优以提高性能和效率。您可以考虑使用合适的计算引擎（如MapReduce、Graph、SQL等），适当调整作业的参数，如并发度、分片数、配置项等。
4. 数据格式和压缩：检查数据的格式和压缩方式是否适合任务的执行。某些数据格式和压缩方式可能会影响读取数据的速度和效率。选择适当的数据格式和压缩方式可以提高任务的执行效率。
5. 数据量过大：如果任务处理的数据量非常大，可能需要增加资源配额或调整作业参数以适应更大规模的数据处理。
6. 网络问题：网络连接不稳定或延迟较高可能会影响数据读取和传输的速度。确保网络连接正常并且没有明显的网络问题。
2023-07-28 21:45:49

赞同展开评论
芯在这
1. 看着R2_1阶段貌似一直都没有在进行，先停掉这个SQL吧。
2. 这个任务先提交的Online Job，跑了10分钟，失败后重跑的Offline Job。Fuxi Job的两种作业类型：Online Job（service mode）和Offline Job。对于Offline的作业而言，当每次提交作业时在Fuxi上都会有一个环境准备的时间，针对大数据量并且不需要返回查询结果的作业比较合适，而对小数据量并且实时作业要求比较高的作业是不合适的。所以Fuxi提供为什么ServiceMode这种准实时的作业形式，也是online，首先会有一个服务去预先申请计算一些资源并加载出来，比如会预先分配一万个nstance，当有作业提交时会根据作业规模分配一些Instance进行执行，这样就省去环境准备的时间，所以就会比较快。online不等资源且不保证成功。如果service mode失败，比如instance个数超过1000，或者运行超过10分钟，就会退回以Offline模式重跑。可以set odps.service.mode=off;这样就直接跑完了，不会再跑online
3. 在M1阶段看着有一些数据倾斜产生Data-Skews，可以按照文档排查优化一下，重跑看看。
  ，此回答整理自钉群“MaxCompute开发者社区1群”
2023-07-11 17:56:55

赞同展开评论

你好，能帮忙看一下我们这个任务么？大数据计算MaxCompute一直是这个状态，数据都没有读到 Re

大数据计算 MaxCompute

相关文章

相关解决方案

热门讨论

热门文章