开发者社区> 问答> 正文

你好,我做数据同步时,因为个人失误,导致一个月份的数据插入重复,请问如何删除这部分重复数据,而不是直接用truncate清空该表,因为我这个表数据较多,接近100个G,重新导入一遍代价太大,如何删除掉1万条多余数据呢?表是非分区表;

已解决

你好,我做数据同步时,因为个人失误,导致一个月份的数据插入重复,请问如何删除这部分重复数据,而不是直接用truncate清空该表,因为我这个表数据较多,接近100个G,重新导入一遍代价太大,如何删除掉1万条多余数据呢?表是非分区表;

展开
收起
祁同伟 2017-06-16 11:19:34 3442 0
1 条回答
写回答
取消 提交回答
  • TA有点害羞,没有介绍自己...
    采纳回答

    每一列都一样的就算重复数据的话,可以 group by 所有列,比方有三列 c1,c2,c3
    insert overwrite table xx select c1,c2,c3 from tablename group by c1,c2,c3
    建议操作表之前,做好数据备份。您可以通过logview看执行时间,100G应该不会超过半小时。

    2019-07-17 21:18:02
    赞同 1 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
MaxCompute技术公开课第四季 之 如何将Kafka数据同步至MaxCompute 立即下载
RowKey与索引设计:技巧与案例分析 立即下载
事务、全局索引、透明分布式 立即下载