你好,我做数据同步时,因为个人失误,导致一个月份的数据插入重复,请问如何删除这部分重复数据,而不是直接用truncate清空该表,因为我这个表数据较多,接近100个G,重新导入一遍代价太大,如何删除掉1万条多余数据呢?表是非分区表;
每一列都一样的就算重复数据的话,可以 group by 所有列,比方有三列 c1,c2,c3
insert overwrite table xx select c1,c2,c3 from tablename group by c1,c2,c3
建议操作表之前,做好数据备份。您可以通过logview看执行时间,100G应该不会超过半小时。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。