备案控制台

开发者社区> 问答> 正文

FlinkSQL 使用 streamingSink 写入 hive orc数据，如何控制文件数量。

需求假设，我的hive表为tmp表，若干字段，如何以dt、hour、sid为分区，其中sid为渠道的含义。我当前基于FlinkSQL从kafka表中读取数据，转写到hive表tmp中，采用流式写入，提交策略metastore、success-file，触发假设用process-time，delay为1h。检查点每1min检查一次，连续2次检查点间隔10min，本质就是10min做一次检查点。

当前情况由于数据量较大，kafka分区数量为60，因此我的任务并发可以选择60以内，假设并发也选了60。那么对于每个时间点，dt肯定只有1个，hour也基本只有1个，sid的话假设有10个。文件数情况为：每10分钟，10（sid）*60（parallelism）= 600个。每小时有6个10分钟（即6次检查点），那么就是6000个文件。如上，每小时差不多6000个文件生成，只会多不会少，因为考虑到roll policy等。

目前我需要的是，由于不同sid的数据量不一样，我想能否对于小数据量的sid，只被1个subtask消费，这样对于这个sid对应的分区下，每10分钟的文件数量就是1个，而不是60个。对于数据量大的sid，则多个并行subtask消费。大概想法类似于datastream api中先keyBy sid（当然这里可能有数据倾斜，我可以自己去想法解决，比如将大流量sid分散为sid+randomInt），然后基于streamingSink来消费并写入hive。

请问如上想法datastream、以及 flinkSQL 是否都能实现呢？

目前我看insert into tmp select ... from kafka_tmp;这样的话，默认生成2个task，一个kafkaSouce+streamSink（chain在一起）+ partition commiter，这是不满足需要的肯定。*来自志愿者整理的flink邮件归档

展开

收起

moonlightdisco 2021-12-08 09:41:31 851 0

0 条回答

写回答

取消提交回答

问答分类：

SQL 消息中间件 Kafka API HIVE 流计算实时计算 Flink版云消息队列 Kafka 版

问答标签：

Hive数据

问答地址：

开发者社区 > 大数据 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

在Flink CDC中这种方式必须是hive的用户创建的表，创建的hdfs文件才能挂载没有其他方法?

55

0

0

E-MapReduce使用hue上传本地excel文件到hive表中报错'metastore'...

62

1

0

flink cdc写hdfs文件的时候，如果开启文件合并的话，最终的文件不能通过hive映射读取吗？

81

0

0

DataWorks因为hive表分区文件已存在，会报错，如何解决？

236

2

0

在Flink CDC中，怎么让 FlinkSQL写入hive数据库？

63

1

0

大数据计算MaxCompute从hive表将数据以orc方式写入oss,然后mc再将这些数据load

60

1

0

MaxCompute中如何把表导出成Hive Parquet文件到oss上

46

1

0

Flink CDC里flinksql写hive一直包这个错误，报错怎么办？

178

0

0

OceanBase数据库在表对表insert数据的时候可以像hive那样直接迁移表对应的数据文件吗？

80

1

0

请教一下怎么用flinksql 写一个连接带有kerberos 认证的 hive 的catalog？

465

3

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819225

2 据说在家办公的程序员是这样写代码的？ 1793417

3 阿里云开放端口权限 690424

4 如何升级配置 536383

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 523025

6 【精品问答】python技术1000问(1) 514182

7 Flink Forward Asia 2021 有奖问答 512956

8 OceanBase 使用动画（持续更新） 359410

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329833

10 OSS存储服务-客户端工具 321681

11 为体验实验室取一个新名字。 307537

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304186

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295381

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284337

15 安全组详解，新手必看教程 277390

16 写code还是做管理，开发者如何进行职业规划？ 269354

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255907

18 阿里云手机和阿云浏览器连接问题专帖 235722

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 235703

20 请问阿里云邮箱如何开启SMTP服务啊！ 225949

1 DeepSeek API 调用没反应，超时后报错 500，这是啥意思，按照对接文档调用的啊 749

2 钉钉机器人发送群消息消息，突然不能@人了，昨天还正常，代码没有任何调整，是有什么配置或者服务到期了吗 180

3 大模型数据处理vs人工数据处理，哪个更靠谱？ 1244

4 AI年味，创意新年，你认为AI能否为春节活动增添新意呢？ 1413

5 点击VS Code通义灵码插件，无法加载出对话窗口，并报错 160

6 AI程序员功能有一个严重的问题，严重到基本可以认为AI程序员无法发挥任何作用。 254

7 在VS code中使用AI程序员修改建议无法直接应用，点击接受后提示操作失败。 110

8 赶紧把通义灵码idea插件自动生成流程图功能给关了吧。太难用了。 125

9 在海量用户中，将如何快速定位到目标人群进行个性化营销？ 960

10 你认为哪些领域的知识对开发者来说特别重要？ 780

11 使用安全体检功能，看看你有多少未修复的安全问题？ 3434

12 通义灵码的AI程序员问题 165

13 强烈建议宜搭手机端改版，现在都展示些什么乱七八糟的内容。 327

14 AI时代，聊聊如何从海量数据中挖掘金矿？ 1444

15 2025阿里云服务器租用价格表(一年/按月/按小时报价明细) 260

16 阿里云域名优惠口令，2025年最新分享 226

17 关于qwen2-vl微调最佳实践 301

18 7、如何在阿里云ECS服务器上进行数据备份？ 355

19 3、如何登录 ECS 管理控制台来查询阿里云服务器的基本信息，有哪些具体操作步骤？ 133

20 1、当遇到VNC 远程连接阿里云服务器失败时，应该如何解决？ 277

相关课程

更多

大数据Hive教程精讲

1035

25

去学习

StarRocks 数据导入、建表查询以及manger管理

35

1

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Comparison of Spark SQL with Hive 立即下载

Hive Bucketing in Apache Spark 立即下载

2019大数据技术公开课第五季—Hive迁移到MaxCompute最佳实践 立即下载