OSS数据源为您提供读取和写入OSS的双向通道,本文为您介绍DataWorks的OSS数据同步的能力支持情况。https://help.aliyun.com/zh/dataworks/user-guide/oss-data-source
说明
默认单位为MB。
配置示例:"maxFileSize":300, 表示设置单个文件大小为300M。
在DataWorks中,当数据同步到OSS时,切分文件的单位是行。也就是说,每一行数据都会作为一个独立的文件存储在OSS中。这样可以有效地提高数据的处理速度和效率。
在DataWorks同步数据到OSS时,文件的切分单位可以按照您的需求进行设置。您可以选择以文件为单位进行切分,也可以按照记录数进行切分。此外,如果您希望进一步提升数据同步任务的效率,建议将源数据表中的主键或有索引的列作为切分键,因为主键通常比较均匀,切分出来的文件也不容易出现数据热点。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。