接上 大数据ACP总结(一)
刚刚顺利苟过了阿里ACP, 主要复习策略是多次熟悉阿里云提供大数据官方教程,官方文档,并对核心环境做总结。
社区关于复习提纲的内容以及比较详细了,这里梳理下存在关键细节的考点,也给大家一些参考。
Tunnel :
核心命令
Usage: tunnel <subcommand> [options] [args]
Type 'tunnel help <subcommand>' for help on a specific subcommand.
Available subcommands:
upload (u)
download (d)
resume (r)
show (s)
purge (p)
help (h)
Q:是否支持 ascii 字符的分隔符?
A:命令行方式不支持,配置文件可以用十六进制表示。如 u000A,表示回车。
Q:文件大小是否有限制?
A:文件大小没有限制,但一次 upload 无法超过 24 小时,可以根据实际上传速度和时间来估算能够上传的数据量。
Q:记录大小是否有限制?
A:记录大小不能超过 200M。
Q:是否要使用压缩?
A:默认会使用压缩,如果带宽允许的情况下,可以关掉压缩。
Q:同一个表或 partition 是否可以并行上传?
A:可以。
Q:是否支持不同字符编码?
A:支持不同的编码格式参数,带 bom 标识文件不需要指定编码。
Q:导入后的脏数据怎么处理?
A:导入结束后,如果有脏数据可以通过 tunnel show bad [sessionid] 查看脏数据。
Q:上传下载的文件路径是否可以有空格?
A:可以有空格,参数需要用双引号括起来。
Q:为什么会出现乱码?
A:可能是上传文件的字符编码和工具指定的编码不符。
Q:导入数据最后一列为什么多出r符号?
A:windows 的换行符是rn,macosx 和 linux 的换行符是n,tunnel 命令使用系统换行符作为默认列分隔符,所以从 macosx 或 linux 上传 windows 编辑保存的文件会把r作为数据内容导进去。
Q:Tunnel 下载/上传速度正常速度范围是多少?
A:Tunnel 下载上传,受网络因素影响较大,正常网络情况下速度范围在 1MB/s-20MB/s 区间内。
Q:Tunnel 域名是什么?
A:不同 region 对应不同的域名,详情请参见 访问域名和数据中心。
Q:无法上传/下载怎么办?
A:找到配置中配置的 tunnel 域名,通过 curl -i 域名例如 curl -i http://dt.odps.aliyun.com 测试网络是否连通,若无法连通请检查机器网络或更换为正确的域名。
Q:上传/下载速度缓慢怎么办?
A:您可以从以下几方面进行检查:
检查机器网络状态,ping tunnel_endpoint 域名延迟是否异常。
Q:Tunnel 需注意的分隔符问题有哪些?
A:Tunnel 需要注意的分隔符问题,如下所示:
列分隔符 fd 不能包含行分隔符 rd。
行分隔符 rd。
默认值: rn (windows) 和 n(linux)。
上传开始的时候会打印提示信息,告知本次上传所使用的行分隔符(0.21.0 版本及以后)供用户查看和确认。
列分隔符 fd。
默认值:, (逗号)。
Mapreduce:
- mapreduce 采用了大量便宜低成本的机器支持横向扩展,并非失效是常态
- bdp.system.bizdate 为格式为当前前一天 格式YYYYMMDD
- bdp.system.cycdate 为调度实例定时运行时间
- 一个 map 的输出结果可能会被分配到多个 reduce 上去
- 一个 reduce 的输入数据可能来自于多个 map 的输出
- 一个 MR 处理可以不包括任何 map