MaxCompute(原ODPS) MapReduce常见问题解答

本文涉及的产品
云原生大数据计算服务 MaxCompute,5000CU*H 100GB 3个月
云原生大数据计算服务MaxCompute,500CU*H 100GB 3个月
简介: #### 1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败? A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指

本文用到的

阿里云数加-大数据计算服务MaxCompute产品地址:https://www.aliyun.com/product/odps


1. 作业出现ClassNotFoundException和NoClassDefFoundError异常失败?

A: 对于ClassNotFoundException异常,一般是依赖的class不在你的jar包中,需要把依赖的库打到作业jar包中或者单独上传,并在-resources中指定;
对于NoClassDefFoundError异常,先看看依赖class是否存在于你的jar包,很多情况下是由于版本冲突导致的,可能你依赖的库和服务端自带的jar有冲突。


2. MR提交命令中-resources和-classpath的理解?

A: 在MaxCompute中类似MR这类分布式数据处理框架,用户的代码一般在以下两个地点执行:

  • 运行客户端的进程/子进程:这里的用户代码负责准备执行环境、配置任务参数、提交任务,入口通常是main class。它不受沙箱限制,执行逻辑由用户代码驱动。同样的,这里的classpath由用户配置,或在console中使用-classpath选项添加依赖的classpath路径。
  • 远程执行的worker进程:这里的代码负责执行数据处理逻辑,入口是mapper/reducer class。它受限沙箱限制,且执行逻辑由MaxCompute框架驱动。用户在命令行配置的-classpath在这里无效(显然,远程机器的路径和客户端机器的路径无法保证一致),任何第三方依赖必须作为resource提前上传至MaxCompute,并在提交任务时使用-resources选项或JobConf.setResources(String[])来设定。

3. Mapper数目如何设置?

A:如果没有输入表是可以直接指定map数目setNumMapTasks
    有输入表的话,setNumMapTasks不生效,需要通过setSplitSize来控制map数,默认是256M。


4. Reducer数目如何设置?

A: 通过JobConf的接口setNumReduceTasks可以设置。
对于pipeline作业,Jobconf的接口同样可以设置,只不过设置后所有reduce阶段的个数都是同样的值。
如果要分阶段设置,设置方式如下:

    Pipeline pipeline = Pipeline.builder()

.addMapper(TokenizerMapper.class)
...
.addReducer(SumReducer.class).setNumTasks(5)
...
.addReducer(IdentityReducer.class).setNumTasks(1).createPipeline();


5. 报错java.lang.OutOfMemoryError: Java heap space,MR的内存设置问题?

A:mapper或reducer的内存由两部分组成,JVM的heap memory和JVM 之外的框架相关内存。
    设置JVM内存的接口是(都是Java逻辑的话,调节内存是用下面两个接口):
    setMemoryForMapperJVMsetMemoryForReducerJVM (默认是1024 单位MB)
    设置框架内存(c++部分的)的接口是(一般不需要设置):
    setMemoryForMapTasksetMemoryForReduceTask(默认是2048 单位MB)


6. mr 输出到表或某个分区里时,输出的模式时追加还是覆盖 ?

A: 会覆盖输出表或分区之前的内容


7. 二次排序功能,MR相关配置解释,setMapOutputKeySchema? setOutputKeySortColumns? setPartitionColumns? setOutputGroupingColumns?

A: 通常情况下,GroupingColumns包含在KeySortColumns中,KeySortColumns和PartitionColumns要包含在Key schema中。

  • 在Map端,Mapper输出的Record会根据设置的PartitionColumns计算哈希值,决定分配到哪个Reducer,会根据KeySortColumns对Record进行排序。
  • 在Reduce端,输入Records在按照KeySortColumns排序好后,会根据GroupingColumns指定的列对输入的Records进行分组,即会顺序遍历输入的Records,把GroupingColumns所指定列相同的Records作为一次reduce函数调用的输入。

8. 请问mr job的map或者reduce如果想提前终止job, 执行什么代码?

A: 抛异常就可以,例如throw new RuntimeException("XXX"); 会导致job失败,job也就结束了。


9. 请问map阶段有时候为什么会有interrupted,但是map 最终仍然完成了?

A:因为有backup instance在跑,产生backup instance一般是因为有某些map instances明显慢于其他的,就会在别的机器上启动一个同样的worker来跑,这个功能类似于hadoop的预测执行,只要其中某个成功跑完,其他的就可以停掉了(变为interrupted)


10. mr如何获取输入表的信息?

A: 参考:http://repo.aliyun.com/java-sdk-doc/com/aliyun/odps/mapred/Mapper.TaskContext.html
使用Mapper.TaskContext的接口getInputTableInfo(),会得到输入表的TableInfo对象
每个map worker只会处理来自单一表或分区的数据,在mapper的setup阶段获取该信息即可。


11. 如何使用自定义partitioner ?

A: 参考如下代码:

import com.aliyun.odps.mapred.Partitioner;

...

public static class MyPartitioner extends Partitioner {

@Override
public int getPartition(Record key, Record value, int numPartitions) {
  // numPartitions即对应reducer的个数
  // 通过该函数决定map输出的key value去往哪个reducer
  String k = key.get(0).toString();
  return k.length() % numPartitions;
}
}

在jobconf里进行设置:jobconf.setPartitionerClass(MyPartitioner.class)
另外需要在jobconf里明确指定reducer的个数:jobconf.setNumReduceTasks(num)


12. 如何设置Key排序列的顺序(ASC or DESC)?

A: 类似如下: 
//key按这些列排序
job.setOutputKeySortColumns(new String[] { "custid", "msgtype","amount" });
//设置每个列正序还是倒序
job.setOutputKeySortOrder(new SortOrder[]{SortOrder.ASC,SortOrder.ASC,SortOrder.DESC});


13. 报错kInstanceMonitorTimeout, usually caused by bad udf performance,怎么解决?

A: 报这个错的原因是mapper或者reducer有逻辑执行时间特别长,且没有从输入表的读数据或者写出数据,超过默认10min后,会报这个异常;有两种解决方法:

  • 将超时的时间调的更长一些,可以设置参数odps.function.timeout或者设置JobConf#setFunctionTimeout,最长可以设置为3600,即一个小时。
  • 定期向框架汇报心跳 TaskContext#progress(),注意progress不要调用过于频繁,否则有性能问题,能确保两次调用之间的时间小于设置的timeout时间即可。

14. 框架map或者reduce接口里的Record对象是复用的?

A:是的,为了减少对象的开销,框架对于map, reduce接口里的Record对象是复用的,也就是说每次map或者reduce的每次迭代,Record对象没有变,只是里面的数据变化了。如果要保存上一次的Record需要toArray()拿到里面的数据对象进行保存。具体可以参考:http://repo.aliyun.com/java-sdk-doc/com/aliyun/odps/mapred/Reducer.html


15. 写完一条记录后,想把outputRecord里面的数据清空,这个要怎么弄,要不然,再写下一条记录的时候,如果某个字段没有值,就会用原来的记录填充?

    A:如果写的Record对象是复用的,如果某个值没有新set,则还是保留着之前的值对象。目前没有直接可以清空的api可以用,可以通过Record.getColumnCount拿到column count,用一个for 循环去一一set null即可。


16. MR支持多路输入输出,应该怎么写这样的程序?

    A:参考:多路输入输出示例

对于多路输入,每个输入源对应单独的一个Map阶段,即一个map task只会读取一个输入表的数据。可以指定一个表的多级分区列来作为一个输入,例如a, b, c三分区列,指定分区时可以指定a=1/b=1/c=2类似这样。

    如果同一级别的多个分区,则需要各自作为单独的分区输入,例如一个表的a=1和a=3分区作为多路输入的俩不同的输入,需要分别指定。
    maponly的作业也同样支持多路输入输出,实现方法类似。


17. sdk如何通过instance获取logview url?

A: 可以使用如下的方式拿到logview的url

RunningJob rj = JobClient.runJob(job);
com.aliyun.odps.Instance instance = SessionState.get().getOdps().instances().get(rj.getInstanceID());
String logview = SessionState.get().getOdps().logview().generateLogView(instance, 7 * 24);
System.out.println(logview);

18.  MR作业如何指定输入表的Project名字?

A: 可以按如下的方式指定:

InputUtils.addTable(TableInfo.builder().projectName("test_project_name").tableName("test_table_name").build(), job);

通过TableInfo.builder()projectName接口来指定,如果不指定,默认值是在运行MR作业的那个project.


19. 不同的Mapper或者Reducer如何获取可区分的ID?

A: 有些业务场景需要区分不同的Mapper或Reducer,可以通过TaskContextgetTaskID接口获取到一个Mapper/Reducer独有的id。

String id = context.getTaskID().toString();

20. MR代码里有JNI的调用该怎么写?

A:首先project要开通jni的相关权限,在编译准备好so文件后,需要将so以file类型的形式添加为Resource,并在MR作业提交的时候-resources参数里指定,例如:

add file libtestjni.so as libtestjni.so -f;
jar -resources testmr.jar,libtestjni.so -classpath testmr.jar Test.MRDriver xxx xxx;

在MR的java代码使用jni的时候要注意,使用方式如下:

System.loadLibrary("testjni");    // 这里不要写成libtestjni.so,否则会报错,原因是java会自动添加lib前缀和.so后缀的

jni的使用方法可以参考:https://www.ibm.com/developerworks/cn/java/l-linux-jni/


21. MR作业读取表资源,Archive资源应该如何操作?

A: MaxCompute上的资源(file, table, archive等)可以类比于Hadoop的DistributedCache来理解,同样是会分发到每个计算节点上去,worker再从本地来读取,因而资源文件不能过大,否则分发资源就是一个瓶颈,目前默认有2G的总资源大小限制。
读取资源表,Archive资源总体上来说和读取file类型资源是类似的,只是使用的接口不同。读取资源文件的方法可以参考文档:使用资源示例

对于表资源:
将表添加为资源表: add table xxx as xxx -f;
读资源表的接口为:TaskContext#readResourceTable

对于Archive资源:
将本地archive(.tar, .zip等archive文件)上传为资源: add archive as xxx -f;
读archive资源的接口为:TaskContext#readResourceArchiveAsStream


...不断更新中...

相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
25天前
|
SQL 存储 分布式计算
ODPS技术架构深度剖析与实战指南——从零开始掌握阿里巴巴大数据处理平台的核心要义与应用技巧
【10月更文挑战第9天】ODPS是阿里巴巴推出的大数据处理平台,支持海量数据的存储与计算,适用于数据仓库、数据挖掘等场景。其核心组件涵盖数据存储、计算引擎、任务调度、资源管理和用户界面,确保数据处理的稳定、安全与高效。通过创建项目、上传数据、编写SQL或MapReduce程序,用户可轻松完成复杂的数据处理任务。示例展示了如何使用ODPS SQL查询每个用户的最早登录时间。
77 1
|
29天前
|
分布式计算 资源调度 Hadoop
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
大数据-80 Spark 简要概述 系统架构 部署模式 与Hadoop MapReduce对比
61 2
|
3月前
|
分布式计算 搜索推荐 物联网
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
|
3月前
|
人工智能 分布式计算 架构师
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
|
3月前
|
分布式计算 大数据 分布式数据库
"揭秘HBase MapReduce高效数据处理秘诀:四步实战攻略,让你轻松玩转大数据分析!"
【8月更文挑战第17天】大数据时代,HBase以高性能、可扩展性成为关键的数据存储解决方案。结合MapReduce分布式计算框架,能高效处理HBase中的大规模数据。本文通过实例展示如何配置HBase集群、编写Map和Reduce函数,以及运行MapReduce作业来计算HBase某列的平均值。此过程不仅限于简单的统计分析,还可扩展至更复杂的数据处理任务,为企业提供强有力的大数据技术支持。
61 1
|
3月前
|
分布式计算 大数据 Hadoop
MapReduce:大数据处理的基石
【8月更文挑战第31天】
108 0
|
3月前
|
机器学习/深度学习 分布式计算 算法
MaxCompute 的 MapReduce 与机器学习
【8月更文第31天】随着大数据时代的到来,如何有效地处理和分析海量数据成为了一个重要的课题。MapReduce 是一种编程模型,用于处理和生成大型数据集,其核心思想是将计算任务分解为可以并行处理的小任务。阿里云的 MaxCompute 是一个面向离线数据仓库的计算服务,提供了 MapReduce 接口来处理大规模数据集。本文将探讨如何利用 MaxCompute 的 MapReduce 功能来执行复杂的计算任务,特别是应用于机器学习场景。
76 0
|
3月前
|
SQL 存储 分布式计算
MaxCompute 入门:大数据处理的第一步
【8月更文第31天】在当今数字化转型的时代,企业和组织每天都在产生大量的数据。有效地管理和分析这些数据变得至关重要。阿里云的 MaxCompute(原名 ODPS)是一个用于处理海量数据的大规模分布式计算服务。它提供了强大的存储能力以及丰富的数据处理功能,让开发者能够快速构建数据仓库、实时报表系统、数据挖掘等应用。本文将介绍 MaxCompute 的基本概念、架构,并演示如何开始使用这一大数据处理平台。
484 0
|
3月前
|
SQL 分布式计算 大数据
"大数据计算难题揭秘:MaxCompute中hash join内存超限,究竟该如何破解?"
【8月更文挑战第20天】在大数据处理领域,阿里云的MaxCompute以高效稳定著称,但复杂的hash join操作常导致内存超限。本文通过一个实例解析此问题:数据分析师小王需对两个共计300GB的大表进行join,却遭遇内存不足。经分析发现,单个mapper任务内存默认为2GB,不足以支持大型hash表的构建。为此,提出三种解决方案:1) 提升mapper任务内存;2) 利用map join优化小表连接;3) 实施分而治之策略,将大表分割后逐一处理再合并结果。这些方法有助于提升大数据处理效率及稳定性。
79 0
|
3月前
|
SQL 分布式计算 大数据
"揭秘MaxCompute大数据秘术:如何用切片技术在数据海洋中精准打捞?"
【8月更文挑战第20天】在大数据领域,MaxCompute(曾名ODPS)作为阿里集团自主研发的服务,提供强大、可靠且易用的大数据处理平台。数据切片是其提升处理效率的关键技术之一,它通过将数据集分割为小块来优化处理流程。使用MaxCompute进行切片可显著提高查询性能、支持并行处理、简化数据管理并增强灵活性。例如,可通过SQL按时间或其他维度对数据进行切片。此外,MaxCompute还支持高级切片技术如分区表和分桶表等,进一步加速数据处理速度。掌握这些技术有助于高效应对大数据挑战。
102 0

相关产品

  • 云原生大数据计算服务 MaxCompute