开发者社区 > 大数据与机器学习 > 大数据开发治理DataWorks > 正文

DataWorks的hive writer parquent存储bigint类型

已解决

DataWorks的hive writer parquent存储bigint类型

2021-12-23 12:30:35.356 630912445-0-0-writer ERROR StdoutPluginCollector - 脏数据: {"exception":"error starting field servertimestamp at 10","message":"error starting field servertimestamp at 10","record":{"byteSize":8,"index":0,"rawData":1640058849855,"type":"LONG"},。。。com.alibaba.datax.common.exception.DataXException: Code:HdfsWriter-04, Description:您配置的文件在写入时出现IO异常.. - java.lang.ClassCastException: parquet.io.PrimitiveColumnIO cannot be cast to parquet.io.GroupColumnIO

展开
收起
阿里云服务支持 2022-12-09 15:11:46 495 0
1 条回答
写回答
取消 提交回答
  • 推荐回答
    官方回答

    hive writer parquent存储bigint类型需要parameter里增加参数 "dataxParquetMode": "fields"

    加该参数原因:这个是写parquet的实现有不同,不加这个参数是个老模式,那个模式处理null的情况会有些限制,源端bigint字段有null就会报错。

    2022-12-09 15:18:29
    赞同 展开评论 打赏

DataWorks基于MaxCompute/Hologres/EMR/CDP等大数据引擎,为数据仓库/数据湖/湖仓一体等解决方案提供统一的全链路大数据开发治理平台。

相关产品

  • 大数据开发治理平台 DataWorks
  • 热门讨论

    热门文章

    相关电子书

    更多
    DataWorks数据集成实时同步最佳实践(含内测邀请)-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks调度任务迁移最佳实践-2020飞天大数据平台实战应用第一季 立即下载
    DataWorks商业化资源组省钱秘籍-2020飞天大数据平台实战应用第一季 立即下载

    相关实验场景

    更多