开发者社区 问答 正文

E-MapReduceOSS 参考使用说明是什么?



OSS URI


在使用 E-MapReduce 时,用户将会使用两种 OSS URI,分别是:


  • native URI:oss://[accessKeyId:accessKeySecret@]bucket[.endpoint]/object/path
    用户在作业中指定输入输出数据源时使用这种 URI,可以类比 hdfs://。用户操作 OSS 数据时,可以将accessKeyId,accessKeySecret 以及 endpoint 配置到 Configuration 中,也可以在 URI 中直接指定accessKeyId,accessKeySecret 以及 endpoint。

  • ref URI: ossref://bucket/object/path
    只在 E-MapReduce 作业配置时有效,用来指定作业运行需要的资源。例如以下作业配置示例:

    我们把 oss 与 ossref 这样的前缀称为 scheme。在使用过程中,需要特别注意 URI 中 scheme 的不同。


注意事项


在支持向 OSS 写数据时,E-MapReduce 使用 OSS 的 multipart 分片上传方式。这里需要提醒的是,当作业异常中断后,OSS中会残留作业已经生产的部分数据,需要您手动删掉。这里的行为和作业输出到 HDFS 是一致的,作业异常中断后,HDFS也会残留数据,也需要手动删掉。但有一个区别,OSS 对使用 multipart 上传的文件,它是先放在碎片管理中,所以您不仅要删除 OSS文件管理中的输出目录残留文件,还需要在 OSS 的碎片管理中清理一次,否则会产生数据存储费用。

展开
收起
nicenelly 2017-10-30 15:24:46 1620 分享 版权
阿里云 AI 助理回答

在阿里云的E-MapReduce服务中,OSS(Object Storage Service)URI扮演着关键角色,用于指定数据存储位置,确保作业能够正确地读取输入数据和写入输出结果。您提到的两种OSS URI格式各有其特定用途:

  1. Native URI (原生URI格式):

    • 格式:oss://[accessKeyId:accessKeySecret@]bucket[.endpoint]/object/path
    • 用途:主要用于在E-MapReduce作业中指定输入输出数据源。这种格式允许用户直接在URI中嵌入访问密钥ID、访问密钥秘密以及端点信息,或者通过配置的方式提供这些认证信息。它类似于HDFS的路径表示,使得用户能够方便地与OSS存储交互。
  2. Ref URI (引用URI格式):

    • 格式:ossref://bucket/object/path
    • 用途:专用于E-MapReduce作业配置时,指定向作业提供必要的资源,比如作业执行所需的库文件或配置文件等。这种格式简化了资源指定过程,不直接包含敏感的认证信息,通常假设相关权限已经通过其他方式配置好。

注意事项中特别强调了使用OSS进行数据写入时的几点重要事项: - Multipart Upload: E-MapReduce利用OSS的多部分上传功能处理大数据量的写入。这意味着如果作业异常中断,OSS中可能会留下未完成的分片文件,需要手动清理以避免产生不必要的存储费用。 - 残留数据处理: 类似于HDFS,当作业因故中断,不仅需要删除OSS文件管理中的残留文件,还必须进入OSS的碎片管理界面清理那些未完成的上传分片。这是因为多部分上传的文件片段首先存储在临时区域,不直接显示在常规的文件列表中,因此容易被忽略。

综上所述,正确理解和应用这两种OSS URI格式对于高效、安全地在E-MapReduce作业中使用OSS存储至关重要,同时注意作业失败后的数据清理工作,以避免额外成本。

有帮助
无帮助
AI 助理回答生成答案可能存在不准确,仅供参考
0 条回答
写回答
取消 提交回答