DataWorks中 pyspark 报错：conf里配置没有生效？

DataWorks中 pyspark 报错：com.aliyun.odps.cupid.CupidException: ODPS-0720301: Too many job input - too many map input, must be <= 4096，查错误代码说明是要调整odps.mapred.max.output.num，该如何配置呢？在spark-submit --conf里配置没有生效？

展开

收起

真的很搞笑 2023-10-15 20:07:48 248 版权

2 条回答

写回答

取消提交回答

牧羊吖

月移花影，暗香浮动
在DataWorks中，您可以通过以下步骤配置odps.mapred.max.output.num参数：
1. 登录到DataWorks控制台。
2. 选择您的项目。
3. 点击左侧菜单栏的“作业管理”。
4. 找到您要修改的作业，点击进入作业详情页面。
5. 在作业详情页面，点击“编辑”按钮。
6. 在作业配置页面，找到spark-submit --conf部分，添加或修改spark.hadoop.mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator和spark.hadoop.mapreduce.partition.keycomparator.options=-k1,1nr这两个参数。例如：
```
--conf spark.hadoop.mapreduce.job.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \
--conf spark.hadoop.mapreduce.partition.keycomparator.options=-k1,1nr \
--conf odps.mapred.max.output.num=4096
```
1. 保存并提交作业。
这样，您就可以成功配置odps.mapred.max.output.num参数了。
2023-10-16 16:41:55

赞同展开评论
小周sir

面对过去，不要迷离；面对未来，不必彷徨；活在今天，你只要把自己完全展示给别人看。
在 DataWorks 中使用 PySpark 时，如果出现 "ODPS-0720301: Too many job input - too many map input, must be <= 4096" 的错误，说明在运行 Spark 任务时，输入的数据量超过了最大限制。为了解决这个问题，可以调整 ODPS 的 mapred.max.output.num 参数。
在 DataWorks 中，可以通过以下步骤调整 ODPS 的 mapred.max.output.num 参数：
1. 打开 DataWorks 控制台，选择“数据集成”菜单，进入数据集成页面。
2. 在数据集成页面中，选择“任务管理”选项卡，然后选择要调整的 Spark 任务。
3. 在任务详情页面中，点击“配置”按钮，进入任务配置页面。
4. 在任务配置页面中，找到“ODPS配置”选项卡，然后在“高级”部分找到并修改“mapred.max.output.num”参数的值。该参数的默认值是 4096，可以根据实际情况进行调整。
  需要注意的是，调整 ODPS 的 mapred.max.output.num 参数可能会影响 Spark 任务的性能和稳定性，因此需要根据实际情况进行权衡。此外，由于 ODPS 的 mapred.max.output.num 参数是在 Spark 任务运行时设置的，因此需要在 Spark 任务运行之前进行配置。
2023-10-15 21:41:40

赞同展开评论

DataWorks中 pyspark 报错：conf里配置没有生效？

大数据开发治理DataWorks

相关文章

热门讨论

热门文章