E-MapReduce如何使用Flume进行数据迁移
需要在新集群上也开启flume服务,并且将数据按照和老集群完全一致的规则写入到新集群中。Flume分区表写入 Flume数据双写,双写时需控制开始的时机,要保证flume在开始一个新的时间分区的时候来进行新集群的同步。如flume每小时整点会同步所有的表,那就要整点之前,开启flume同步服务,这样flume在一个新的小时内写入的数据,在旧集群和新集群上是完全一致的。而不完整的旧数据在distcp的时候,全量的同步会覆盖它。而开启双写时间点后的新数据,在数据同步的时候不进行同步。 这个新的写入的数据,在划分数据阶段不要放到数据同步的目录里。 详情请参见:E-MapReduce数据迁移方案。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。