DataWorks中tunel下载分区文件数量有限制吗?tunnel下载分区限制是什么?
在DataWorks中,tunnel下载分区文件数量是有限制的。具体来说,tunnel download命令支持下载没有行数限制的数据,但每一次下载只支持下载一张表或一个分区到一个文件。对于分区表,必须指定下载的分区,多级分区需要指定到末级分区。
值得注意的是,MaxCompute会限制单个作业中Instance的数,当分区数量过多时,可能不方便进行统计和分析。此外,DataWorks限制下载的包总大小为100 MB。如果您需要跳过预装包的打包,可以在打包时使用 pyodps-pack 提供的 --exclude 参数来排除不需要的包。
在使用Tunnel下载数据时,也需要注意一些网络配置。同一地域内使用Tunnel下载数据,必须配置经典网络或VPC类型的Tunnel Endpoint,否则数据可能路由到其他地域,从外网下载数据从而产生费用。
为了获取更详细的信息,您可以使用desc extended命令查看表或分区的文件数量。同时,打开DataWorks的DataStudio页面,选择MaxCompute数据集,点击操作列的“下载”按钮,在出现的对话框中,选择MaxCompute Tunnel下载方式,可以更方便地进行下载操作。
在DataWorks中,Tunnel下载分区文件的数量是有限制的。具体的限制如下:
分区文件数量限制:单次Tunnel下载分区文件的数量不能超过5000个。超过这个数量的分区文件将无法一次性通过Tunnel下载。
Tunnel下载并发连接限制:在并发下载时,每个用户(AccessKeyId)对于同一个数据源的Tunnel下载并发连接数有限制。默认情况下,每个用户对于同一个数据源的Tunnel下载并发连接数上限是20个。当达到该限制时,新的Tunnel下载请求将会被阻塞。
需要注意的是,这些限制可能会因为阿里云的策略调整而有所变化,具体的限制和配额信息,请参考阿里云官方文档或联系阿里云的技术支持团队进行确认。
为了避免超过限制,建议在进行大规模分区文件下载时,可以分批次进行下载,控制单次下载的分区文件数量在限制范围内。或者可以考虑使用其他工具或编程语言直接连接MaxCompute进行下载,以便进行更灵活的控制。
另外,可以通过给Tunnel请求设置参数(例如limit、partition等参数)来进一步控制下载的分区文件数量,以满足你的具体需求。详情请参考阿里云官方文档中有关MaxCompute Tunnel的文档和示例。
在DataWorks中,tunnel download是一种使用MaxCompute Tunnel服务下载MaxCompute表数据的方法,具有高效、安全、稳定的特点。关于tunnel下载分区文件数量的限制,每一笔下载仅支持下载一张表或一个分区到一个文件。对于分区表,一定要指定下载的分区。同时,Tunnel SDK上传数据时,最大支持6万个分区。所以,尽管Tunnel SDK对分区数量有一定的支持,但仍然需要注意不要过多地设置分区数量,以便于数据的统计和分析。
根据阿里云文档中的描述,MaxCompute的Tunnel服务目前只支持表(不包括视图View)数据的上传下载。此外,支持上传的单个资源大小上限为500MB。但并没有明确说明对下载分区文件数量的限制,建议您直接在DataWorks中进行尝试,根据实际情况调整下载的文件数量。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。