备案控制台

开发者社区> 问答> 正文

datax的hdfsreader读取大的orc表行数不够

数据源是一张orc格式的hive表，是用datax从mysql导入hive的，每天分区大约有3800万行；现在通过hdfsreader和mysqlwriter从hive导回mysql，只能读出8065000行，少了3000万行，是有什么限制吗?

展开

收起

winner.lzw 2018-05-07 17:50:18 5198 0

3 条回答

写回答

取消提交回答

游客c6dmzbfrogd7o

是orc格式的限制，把orc文件拆分多个就行

2021-02-20 19:43:00

赞同 1 展开评论打赏
夏舟

略

看下datax运行日志，是否有报错信息，是否同步中断了，是否有脏数据导致被跳过了等等，分析下缺的3000万行有说明特点

2019-07-17 22:08:01

赞同展开评论打赏
31784975

看看运行日志，是否有脏数据报错

2019-07-17 22:08:01

赞同展开评论打赏

问答分类：

SQL 关系型数据库 MySQL DataX HIVE 云数据库 RDS MySQL 版数据集成 Data Integration

问答标签：

数据集成 Data Integration表数据集成 Data Integration orc 数据集成 Data Integration hdfsreader 数据集成 Data Integration hdfsreader orc

问答地址：

开发者社区 > 数据库 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

dataworks离线数据集成，往MC表同步数据时，支持根据某字段更新写入吗？

49

1

0

DataWorks数据集成a表之后在maxcompute选择关联表，有什么区别？

73

3

0

dataworks数据集成 msyql到maxcompute，目标表建立失败怎么办？

50

1

0

DataWorks数据集成那边的表怎么关联在业务流程这？

34

1

0

DataWorks数据集成页面同步的表可以放在这边业务流程中吗？

61

12

0

大数据计算MaxCompute的dataX离线同步，针对业务表太大的情况，内部会分页循环嘛？

35

1

0

DataWorks中dataX离线同步，内部会分页循环嘛，针对业务表太大的情况，内部有优化机制嘛？

60

1

0

holo 表数据到大数据计算MaxCompute表，可以参考哪个文档？不使用数据集成。

30

1

0

DataWorks中holo 表数据到maxcompute 表，可以参考哪个文档。不使用数据集成？

41

2

0

DataWorks这些一个个表的周期同步任务可以放在数据开发页面下的数据集成的对应文件夹下吗？

44

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1818970

2 据说在家办公的程序员是这样写代码的？ 1793086

3 阿里云开放端口权限 690245

4 如何升级配置 536278

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522817

6 【精品问答】python技术1000问(1) 514118

7 Flink Forward Asia 2021 有奖问答 512896

8 OceanBase 使用动画（持续更新） 359369

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329800

10 OSS存储服务-客户端工具 321547

11 为体验实验室取一个新名字。 307469

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304073

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295322

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284178

15 安全组详解，新手必看教程 277339

16 写code还是做管理，开发者如何进行职业规划？ 269110

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255878

18 阿里云手机和阿云浏览器连接问题专帖 235686

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 226625

20 请问阿里云邮箱如何开启SMTP服务啊！ 225849

1 “云+AI”能够孵化出多少可能？ 369

2 当AI频繁生成虚假信息，我们还能轻信大模型吗？ 278

3 FFA 2024 大会门票免费送！AI时代下大数据技术未来路在何方？ 848

4 AI时代，存力or算力哪一个更关键？ 951

5 求宜搭关联表单的更新方法！！！ 162

6 全网寻找 #六边形战士# 程序员，你的 AI 编码助手身份标签是什么？ 1061

7 老哥们有个需求想请教一下，十分感谢 153

8 关于“通义灵码”而言，这次更新后，他更加人性化，然而我更喜欢fittencode,理由如下 158

9 关于开发者的100件小事，你知道哪些？ 1111

10 AI助力，短剧迎来创新热潮？ 736

11 "ModelScope默认的下载位置是在哪里？ 299

12 1024程序员节，开发者们都在参与社区的哪些活动？ 2413

13 关于文本框校验自定义函数的问题 409

14 执行docker search nginx 报错超时 306

15 百问求答第四期-回答问题即有机会拿冬季取暖器 1111

16 宜搭-集成&自动化，怎么实现定时自动获取普通表单里的所有数据，并更新该表单里的某列数据？ 296

17 有没有大佬知道：宜搭的流程表单里如何通过js面板给成员组件赋值？ 365

18 百问求答第四期-回答问题即有机会拿冬季取暖器 799

19 域名内网可以正常访问，外网访问不了 460

20 普通人能用阿里云做什么？ 278

相关课程

更多

阿里云 DTS是如何做实时数据集成的？

223

1

去学习

StarRocks 数据导入、建表查询以及manger管理

33

1

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

Flink CDC：新一代数据集成框架 立即下载

DataWorks数据集成实时同步最佳实践（含内测邀请）-2020飞天大数据平台实战应用第一季 立即下载

《DataWorks 数据集成实时同步》 立即下载