目前DataWorks实时计算支持什么格式格式是什么？

展开

收起

芯在这 2023-04-20 08:17:49 205 0

5 条回答

写回答

取消提交回答

ReaganYoung

值得去的地方都没有捷径

实时计算支持的输入格式通常是结构化数据，包括以下格式：

CSV（逗号分隔值） - 常用于表格数据的存储和导出，以逗号分隔每个字段。

JSON（JavaScript Object Notation） - 一种轻量级的数据交换格式，易于阅读和编写，支持复杂数据结构。

Avro - 一种数据序列化格式，支持动态类型和代码生成。

Parquet - 一种列式存储格式，压缩效率高，适合大数据处理。

ORC（Optimized Row Columnar） - 一种列式存储格式，支持读写大型数据集。

此外，实时计算还支持从消息队列（如Kafka）和日志文件（如Apache Flume）中读取数据。一些实时计算引擎还支持非结构化数据（如文本、图像、音频和视频），通常使用各种算法来提取和分析有用信息。

2023-04-20 18:51:41

赞同展开评论打赏
飞云觅宙

十年摸盘键，代码未曾试。今日码示君，谁有上云事。

阿里云实时计算是一套基于Apache Flink构建的大数据处理平台

当前实时计算对外接口定义为Flink SQL加上UDF。

计算集群是承载实时计算产品计算任务的分布式集群系统，基于YARN模式。

在实时计算中，作业的实时计算单元为CU。1 CU描述了1个实时计算作业最小运行能力，即在限定的CPU、内存、I/O情况下对于事件流处理的最小能力。1个实时计算作业可以指定在1个或者多个CU上运行。

当前对实时计算单元（CU）运行能力的定义：1 CU=1 CPU + 4G MEM。

阿里云实时计算将计算的结果数据直接写入目的数据存储

目前实时计算支持类CSV格式文本和二进制格式。

支持DXF格式文件。

支持解析JSON 格式消息获取Schema。JSON 格式发生变化时，写到结果表的结构也会根据 JSON 自动变化。

支持分库分表和同步的能力，比如将 MySQL 整库数据、分库分表数据同步到下游 Hologres等产品。

阿里云实时计算Flink CDC具有以下四个价值： l 元信息自动发现。 l 全增量自动切换。 l 表结构变更自动同步。 l 整库同步或单表同步。以上功能均只需通过一行SQL、一个Job即可实现。

2023-04-20 15:12:27

赞同 1 展开评论打赏
爱吃白菜的GGB
阿里云实时计算支持多种数据格式，包括：
1. JSON格式：JSON是一种轻量级的数据交换格式，易于阅读和编写。实时计算支持从Kafka、LogHub、DataHub等数据源中读取JSON格式的数据。
2. CSV格式：CSV是一种常见的文本格式，可以用来存储和交换表格数据。实时计算支持从MaxCompute、OSS等数据源中读取CSV格式的数据。
3. AVRO格式：AVRO是一种基于二进制的数据交换格式，支持动态定义数据类型和架构演化。实时计算支持从Kafka、LogHub、DataHub等数据源中读取AVRO格式的数据。
4. ORC格式：ORC是一种高效的列式存储格式，适合存储大规模数据。实时计算支持从MaxCompute、OSS等数据源中读取ORC格式的数据。
5. PARQUET格式：PARQUET也是一种高效的列式存储格式，具有压缩率高、查询速度快等特点。实时计算支持从MaxCompute、OSS等数据源中读取PARQUET格式的数据。
除了以上常见的数据格式，实时计算还支持自定义数据格式，用户可以按照自己的需求定义数据格式和解析方式。
2023-04-20 14:33:18

赞同展开评论打赏
真的很搞笑

MQ实际上是非结构化存储格式，对于数据的Schema不提供强制定义，完全由业务层指定。目前实时计算支持类CSV格式和二进制格式。 https://help.aliyun.com/document_detail/108436.html，此回答整理自钉群“DataWorks交流群(答疑@机器人)”

2023-04-20 11:37:13

赞同展开评论打赏
三掌柜666

十分耕耘，一定会有一分收获！

楼主你好，目前实时计算支持JSON格式动态写入Hologres，支持写入RoaringBitmap类型。

2023-04-20 08:49:53

赞同 1 展开评论打赏