DataWorks中,配置OSS的参数包括以下内容:
AccessKey:是阿里云提供的用于访问OSS的密钥,需要在阿里云控制台中创建和获取。
SecretKey:是阿里云提供的用于访问OSS的密钥,需要在阿里云控制台中创建和获取。
Bucket:是阿里云OSS中的存储桶,需要在阿里云控制台中创建和获取。
BucketName:是OSS中的存储桶名称,需要与Bucket保持一致。
Endpoint:是阿里云OSS的访问地址,需要根据实际情况设置。
在DataWorks中配置OSS(对象存储服务)时,您需要设置以下参数:
访问密钥:您需要提供OSS的AccessKeyId和AccessKeySecret。这些凭据将用于访问和操作OSS资源。
地域(Region):指定您所使用的OSS的地域代码。不同地域拥有不同的访问地址和网络环境。
储存空间(Bucket):指定要访问的OSS储存空间名称。储存空间是用于存储数据和对象的容器。
连接方式(Endpoint):根据您选择的OSS访问方式,指定相应的Endpoint。常见的Endpoint包括内网Endpoint和公网Endpoint。
目录路径(Folder Path):如果您希望将数据上传到特定的目录或文件夹中,可以设置目录路径。例如,可以设置为/data/files/
。
文件格式(File Format):指定要上传到OSS的文件格式。常见的文件格式包括文本文件(如CSV、JSON)、压缩文件(如ZIP)等。
数据分区(Partition):如果您的数据具有分区属性,可以设置分区列和分区值,以便更好地管理和组织数据。
参数 描述 是否必选 默认值
datasource 数据源名称,脚本模式支持添加数据源,该配置项填写的内容必须与添加的数据源名称保持一致。 是 无
object OSS Writer写入的文件名,OSS使用文件名模拟目录的实现。OSS对于Object的名称有以下限制: 是 无
writeMode OSS Writer写入前,数据的处理: 是 无
writeSingleObject OSS写数据时,是否写单个文件: 否 false
fileFormat 文件写出的格式,包括csv和text: 否 text
fieldDelimiter 读取的字段分隔符。 否 ,
encoding 写出文件的编码配置。 否 utf-8
nullFormat 文本文件中无法使用标准字符串定义null(空指针),数据同步系统提供nullFormat定义可以表示为null的字符串。例如,您配置nullFormat="null",如果源头数据是null,数据同步系统会视作null字段。 否 无
header(高级配置,向导模式不支持) OSS写出时的表头,例如,['id', 'name', 'age']。 否 无
maxFileSize(高级配置,向导模式不支持) OSS写出时单个Object文件的最大值,默认为10,00010MB,类似于在打印log4j日志时,控制日志文件的大小。OSS分块上传时,每个分块大小为10MB(也是日志轮转文件最小粒度,即小于10MB的maxFileSize会被作为10MB),每个OSS InitiateMultipartUploadRequest支持的分块最大数量为10,000。 轮转发生时,Object名字规则是在原有Object前缀加UUID随机数的基础上,拼接_1,_2,_3等后缀。 否 100,000MB
suffix(高级配置,向导模式不支持) 数据同步写出时,生成的文件名后缀。例如,配置suffix为.csv,则最终写出的文件名为fileName.csv。 否 无
https://help.aliyun.com/document_detail/137765.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
在DataWorks中,配置OSS的参数包括以下内容:
在输入以上参数时,需要注意以下几点:
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。