开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

目前DataWorks实时计算支持什么格式格式是什么?

目前DataWorks实时计算支持什么格式格式是什么?

展开
收起
芯在这 2023-04-20 08:17:49 205 0
5 条回答
写回答
取消 提交回答
  • 值得去的地方都没有捷径

    实时计算支持的输入格式通常是结构化数据,包括以下格式:

    CSV(逗号分隔值) - 常用于表格数据的存储和导出,以逗号分隔每个字段。

    JSON(JavaScript Object Notation) - 一种轻量级的数据交换格式,易于阅读和编写,支持复杂数据结构。

    Avro - 一种数据序列化格式,支持动态类型和代码生成。

    Parquet - 一种列式存储格式,压缩效率高,适合大数据处理。

    ORC(Optimized Row Columnar) - 一种列式存储格式,支持读写大型数据集。

    此外,实时计算还支持从消息队列(如Kafka)和日志文件(如Apache Flume)中读取数据。一些实时计算引擎还支持非结构化数据(如文本、图像、音频和视频),通常使用各种算法来提取和分析有用信息。

    2023-04-20 18:51:41
    赞同 展开评论 打赏
  • 十年摸盘键,代码未曾试。 今日码示君,谁有上云事。

    阿里云实时计算是一套基于Apache Flink构建的大数据处理平台

    当前实时计算对外接口定义为Flink SQL加上UDF。

    计算集群是承载实时计算产品计算任务的分布式集群系统,基于YARN模式。

    在实时计算中,作业的实时计算单元为CU。1 CU描述了1个实时计算作业最小运行能力,即在限定的CPU、内存、I/O情况下对于事件流处理的最小能力。1个实时计算作业可以指定在1个或者多个CU上运行。

    当前对实时计算单元(CU)运行能力的定义:1 CU=1 CPU + 4G MEM。

    阿里云实时计算将计算的结果数据直接写入目的数据存储

    目前实时计算支持类CSV格式文本和二进制格式。

    支持DXF格式文件。

    支持解析JSON 格式消息获取Schema。JSON 格式发生变化时,写到结果表的结构也会根据 JSON 自动变化。

    支持分库分表和同步的能力,比如将 MySQL 整库数据、分库分表数据同步到下游 Hologres等产品。

    阿里云实时计算Flink CDC具有以下四个价值: l  元信息自动发现。 l  全增量自动切换。 l  表结构变更自动同步。 l  整库同步或单表同步。 以上功能均只需通过一行SQL、一个Job即可实现。

    2023-04-20 15:12:27
    赞同 1 展开评论 打赏
  • 阿里云实时计算支持多种数据格式,包括:

    1. JSON格式:JSON是一种轻量级的数据交换格式,易于阅读和编写。实时计算支持从Kafka、LogHub、DataHub等数据源中读取JSON格式的数据。

    2. CSV格式:CSV是一种常见的文本格式,可以用来存储和交换表格数据。实时计算支持从MaxCompute、OSS等数据源中读取CSV格式的数据。

    3. AVRO格式:AVRO是一种基于二进制的数据交换格式,支持动态定义数据类型和架构演化。实时计算支持从Kafka、LogHub、DataHub等数据源中读取AVRO格式的数据。

    4. ORC格式:ORC是一种高效的列式存储格式,适合存储大规模数据。实时计算支持从MaxCompute、OSS等数据源中读取ORC格式的数据。

    5. PARQUET格式:PARQUET也是一种高效的列式存储格式,具有压缩率高、查询速度快等特点。实时计算支持从MaxCompute、OSS等数据源中读取PARQUET格式的数据。

    除了以上常见的数据格式,实时计算还支持自定义数据格式,用户可以按照自己的需求定义数据格式和解析方式。

    2023-04-20 14:33:18
    赞同 展开评论 打赏
  • MQ实际上是非结构化存储格式,对于数据的Schema不提供强制定义,完全由业务层指定。目前实时计算支持类CSV格式和二进制格式。 https://help.aliyun.com/document_detail/108436.html,此回答整理自钉群“DataWorks交流群(答疑@机器人)”

    2023-04-20 11:37:13
    赞同 展开评论 打赏
  • 十分耕耘,一定会有一分收获!

    楼主你好,目前实时计算支持JSON格式动态写入Hologres,支持写入RoaringBitmap类型。

    2023-04-20 08:49:53
    赞同 1 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    基于DataWorks数据服务构建疫情大屏-2020飞天大数据平台实战应用第一季 立即下载