实时计算支持的输入格式通常是结构化数据,包括以下格式:
CSV(逗号分隔值) - 常用于表格数据的存储和导出,以逗号分隔每个字段。
JSON(JavaScript Object Notation) - 一种轻量级的数据交换格式,易于阅读和编写,支持复杂数据结构。
Avro - 一种数据序列化格式,支持动态类型和代码生成。
Parquet - 一种列式存储格式,压缩效率高,适合大数据处理。
ORC(Optimized Row Columnar) - 一种列式存储格式,支持读写大型数据集。
此外,实时计算还支持从消息队列(如Kafka)和日志文件(如Apache Flume)中读取数据。一些实时计算引擎还支持非结构化数据(如文本、图像、音频和视频),通常使用各种算法来提取和分析有用信息。
阿里云实时计算是一套基于Apache Flink构建的大数据处理平台
当前实时计算对外接口定义为Flink SQL加上UDF。
计算集群是承载实时计算产品计算任务的分布式集群系统,基于YARN模式。
在实时计算中,作业的实时计算单元为CU。1 CU描述了1个实时计算作业最小运行能力,即在限定的CPU、内存、I/O情况下对于事件流处理的最小能力。1个实时计算作业可以指定在1个或者多个CU上运行。
当前对实时计算单元(CU)运行能力的定义:1 CU=1 CPU + 4G MEM。
阿里云实时计算将计算的结果数据直接写入目的数据存储
目前实时计算支持类CSV格式文本和二进制格式。
支持DXF格式文件。
支持解析JSON 格式消息获取Schema。JSON 格式发生变化时,写到结果表的结构也会根据 JSON 自动变化。
支持分库分表和同步的能力,比如将 MySQL 整库数据、分库分表数据同步到下游 Hologres等产品。
阿里云实时计算Flink CDC具有以下四个价值: l 元信息自动发现。 l 全增量自动切换。 l 表结构变更自动同步。 l 整库同步或单表同步。 以上功能均只需通过一行SQL、一个Job即可实现。
阿里云实时计算支持多种数据格式,包括:
JSON格式:JSON是一种轻量级的数据交换格式,易于阅读和编写。实时计算支持从Kafka、LogHub、DataHub等数据源中读取JSON格式的数据。
CSV格式:CSV是一种常见的文本格式,可以用来存储和交换表格数据。实时计算支持从MaxCompute、OSS等数据源中读取CSV格式的数据。
AVRO格式:AVRO是一种基于二进制的数据交换格式,支持动态定义数据类型和架构演化。实时计算支持从Kafka、LogHub、DataHub等数据源中读取AVRO格式的数据。
ORC格式:ORC是一种高效的列式存储格式,适合存储大规模数据。实时计算支持从MaxCompute、OSS等数据源中读取ORC格式的数据。
PARQUET格式:PARQUET也是一种高效的列式存储格式,具有压缩率高、查询速度快等特点。实时计算支持从MaxCompute、OSS等数据源中读取PARQUET格式的数据。
除了以上常见的数据格式,实时计算还支持自定义数据格式,用户可以按照自己的需求定义数据格式和解析方式。
MQ实际上是非结构化存储格式,对于数据的Schema不提供强制定义,完全由业务层指定。目前实时计算支持类CSV格式和二进制格式。 https://help.aliyun.com/document_detail/108436.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”
楼主你好,目前实时计算支持JSON格式动态写入Hologres,支持写入RoaringBitmap类型。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。
DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。