针对OSS数据集成场景下的功能全面优化【Dataphin V3.12]

本文涉及的产品
RDS MySQL Serverless 基础系列,0.5-2RCU 50GB
Redis 开源版,标准版 2GB
推荐场景:
搭建游戏排行榜
云数据库 Tair(兼容Redis),内存型 2GB
简介: OSS(Object Storage Service)是对象存储服务,适用于存放各种文件类型,Dataphin已经支持连接到OSS进行文件数据的读取与写入。本期版本升级中,Dataphin对于OSS的数据同步场景做了全面的功能升级,包括数据源、输入组件与数据组件,一起来了解一下吧~

一、OSS数据源支持填写目录

背景:在Dataphin中创建数据源的时候,需要通过测试连接,保证填写的数据源各项配置均正确,才可以成功创建数据源。这个设计是为了保证后续功能使用数据源的时候,不会因为数据源配置项填写错误,无法连接从而导致任务失败。V3.12之前,OSS数据源仅支持填写到Bucket级别。但是存在这样的场景,某些账号仅有一个Bucket下某个目录的权限,此时用这个账号密码去测试连接,校验是否有访问该Bucket的权限,就会失败,导致数据源无法创建。

功能:针对这个场景,在OSS数据源中新增了“目录”非必填配置项,在遇到上述场景的时候,可以将有权限的目录填入,此时测试连接就会只校验该账号是否有访问该Bucket下该目录的权限,可成功创建数据源。在OSS输入或输出组件中,如果选择了填写了目录的OSS数据源实例,也会在前缀中展示作为默认的目录,默认目录可编辑。

二、OSS输入组件支持读取Excel文件

背景:序言中说到,OSS适用于存储各类型的文件,Excel文件作为一种常见的文件类型,时常会被存储到OSS中,所以自然也有读取OSS中Excel文件数据的需求了。

功能:V3.12之前,OSS输入组件支持读取Text和CSV文件。本次升级中,新增支持读取xls和xlsx两种Excel文件类型。

  • 支持选择读取的sheet:可按名称或按索引选择需读取的sheet。读取多张sheet以英文逗号分隔,也可输入* 读取所有sheet。
  • 导出sheet名:如选择多张sheet时,可能有根据sheet名称来分类数据的场景,所以可选择导出sheet名称,加入一个输出字段标识来源sheet名称。
  • 文件内容起始行、结束行:文件中可能存在第一行为字段名称,或者首尾存在无效数据的情况。可通过指定文件内容起始行与结束行,指定需要读取的数据。

三、OSS输出文件名命名规则优化

背景:原本的OSS输入文件名,会在填写的Object前缀后面加上随机后缀,保证文件不重名,但是这样的可读性较差。同时写入的文件个数也是默认为任务的并发数,这个默认设置无法满足,在数据量很大需要使用并发的场景下,且想写到一个文件中的需求。

功能:针对上述的两个问题,本期归纳了不同场景,给出适合且灵活的文件写入与命名方式。

  • 支持选择写入文件个数:支持选择写入单个文件或多个文件。选择单个文件,将数据写入目标端oss的单个文件中;选择多个文件,将数据写入目标端oss的多个文件,且文件数量为任务并发数。(需注意,并发数需要配合输入组件的切分键使用,如输入端未配置切分键,并发设置不生效,仍为1。)
  • 支持选择后缀格式:选择生成多个文件时,可选择生成_0, _1, _2等序列后缀,也可选择生成UUID随机数后缀。当选择前缀冲突策略为保留原文件追加时,仅能生成UUID随机数后缀,以保证生成不重复的文件名。



结语:文件类型的数据集成场景中,功能与操作都会比结构化数据集成复杂一些。这需要我们从数据源、读取到写入全流程进行需求洞察与功能优化,提高文件类型数据集成的易用性与可操作性。

相关文章
|
2月前
|
存储 Java 开发工具
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
阿里云OSS(Object Storage Service)是一种安全、可靠且成本低廉的云存储服务,支持海量数据存储。用户可通过网络轻松存储和访问各类文件,如文本、图片、音频和视频等。使用OSS后,项目中的文件上传业务无需在服务器本地磁盘存储文件,而是直接上传至OSS,由其管理和保障数据安全。此外,介绍了OSS服务的开通流程、Bucket创建、AccessKey配置及环境变量设置,并提供了Java SDK示例代码,帮助用户快速上手。最后,展示了如何通过自定义starter简化工具类集成,实现便捷的文件上传功能。
【三方服务集成】最新版 | 阿里云OSS对象存储服务使用教程(包含OSS工具类优化、自定义阿里云OSS服务starter)
|
3月前
|
SQL 分布式计算 BI
Dataphin中集成SelectDB以支持报表分析和API查询
本文介绍了一家零售企业如何利用SelectDB进行BI分析及数据服务API的查询。通过Dataphin的数据集成、SQL研发等功能,将CRM、ERP等系统数据汇聚加工,并推送至SelectDB构建销售数据集市层,以支持报表分析及API查询。SelectDB具备实时、统一、弹性及开放特性,适用于多种实时分析场景。文章详细描述了在Dataphin中集成SelectDB的整体方案、数据源配置、数据集成、数据开发及数据服务流程。
140 0
|
4月前
|
JSON 数据管理 关系型数据库
【Dataphin V3.9】颠覆你的数据管理体验!API数据源接入与集成优化,如何让企业轻松驾驭海量异构数据,实现数据价值最大化?全面解析、实战案例、专业指导,带你解锁数据整合新技能!
【8月更文挑战第15天】随着大数据技术的发展,企业对数据处理的需求不断增长。Dataphin V3.9 版本提供更灵活的数据源接入和高效 API 集成能力,支持 MySQL、Oracle、Hive 等多种数据源,增强 RESTful 和 SOAP API 支持,简化外部数据服务集成。例如,可轻松从 RESTful API 获取销售数据并存储分析。此外,Dataphin V3.9 还提供数据同步工具和丰富的数据治理功能,确保数据质量和一致性,助力企业最大化数据价值。
199 1
|
4月前
|
NoSQL Serverless API
Serverless 架构实现弹幕场景问题之API Gateway和OSS域名未绑定成功的问题如何解决
Serverless 架构实现弹幕场景问题之API Gateway和OSS域名未绑定成功的问题如何解决
40 0
|
5月前
|
分布式计算 DataWorks 调度
DataWorks产品使用合集之在使用MaxCompute进行数据集成同步到OSS时,出现表名和OSS文件名不一致且多了后缀,该如何处理
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
SQL 分布式计算 大数据
MaxCompute产品使用问题之如果oss文件过大,如何在不调整oss源文件大小的情况下优化查询sql
MaxCompute作为一款全面的大数据处理平台,广泛应用于各类大数据分析、数据挖掘、BI及机器学习场景。掌握其核心功能、熟练操作流程、遵循最佳实践,可以帮助用户高效、安全地管理和利用海量数据。以下是一个关于MaxCompute产品使用的合集,涵盖了其核心功能、应用场景、操作流程以及最佳实践等内容。
|
6月前
|
SQL Oracle 关系型数据库
一文入门Dataphin实时集成
Dataphin实时集成的读取和写入原理是什么?Dataphin实时集成和实时研发的区别是什么?Dataphin实时集成有哪些优势?本文一次讲清
248 1
|
6月前
|
存储 DataWorks 关系型数据库
DataWorks产品使用合集之在使用数据集成中的同步任务从mysql同步表到oss,存储为csv时,最终生成的文件中没有表头,这个属性可以在哪里配置么
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
6月前
|
对象存储
大事件后端项目32--------文件上传_阿里云OSS_程序集成
大事件后端项目32--------文件上传_阿里云OSS_程序集成
|
7月前
|
分布式计算 DataWorks MaxCompute
DataWorks产品使用合集之在DataWorks中,将数据集成功能将AnalyticDB for MySQL中的数据实时同步到MaxCompute中如何解决
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
102 0