E-MapReduce HDFS文件快速CRC校验工具介绍

本文涉及的产品
EMR Serverless StarRocks,5000CU*H 48000GB*H
简介: 在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。

背景

在大数据应用场景下经常有数据文件的迁移工作,如果保障迁移之后数据的完整性是一个很常见的问题。对本地文件系统的数据而言,我们一般用md5工具(在Linux下可用md5sum命令)。

而对云存储上的文件来说,md5不一定满足需求。比如阿里云OSS文件并没有提供md5校验值,而是提供了CRC64校验值。本文就给大家介绍一下在大数据场景下,如何用工具快速对比文件。

OSSUtil

首先我们使用OSS官方提供ossutil工具,可以方便的得到云端OSS文件的CRC64:

[hadoop@emr-header-1 ~]$ ossutil stat oss://bucket/file.txt
ACL                         : default
Accept-Ranges               : bytes
Content-Length              : 500000000
Content-Type                : application/octet-stream
Etag                        : 1C1CE59DC84E49EC89EE6570A3608597-96
Last-Modified               : 2017-08-01 11:16:27 +0800 CST
Owner                       : onwerid
X-Oss-Hash-Crc64ecma        : 5376366475988344152
X-Oss-Object-Type           : Multipart
X-Oss-Storage-Class         : Standard
0.097086(s) elapsed

其中的 X-Oss-Hash-Crc64ecma : 5376366475988344152 就是校验值。

ossutil hash命令还能得到本地文件的CRC64值:

[hadoop@emr-header-1 ~]$ ossutil hash file.txt
CRC64-ECMA                  : 5376366475988344152

将两个CRC值进行比较,就可以知道从本地上传到OSS上的文件是否成功。

但是,上面的方法只对单个文件有用,如果你的文件是放在分布式文件系统,比如E-MapReduce上的HDFS,有需要备份数据到OSS上,用OSSUtil工具可能就太慢了。下面将引入一个新的工具。

E-MapReduce Distcp和DistCheck

DistCp

首先用EMR distcp工具将数据从HDFS导入到OSS上:

hadoop distcp /user/hadoop/terasort-10g oss://emr-bucket/upload

这里的原始目录有10G,文件列表是:
/user/hadoop/terasort-10g/input/part-m-00000
/user/hadoop/terasort-10g/input/part-m-00001
...
/user/hadoop/terasort-10g/input/part-m-00020

将文件列表保持成一个文件 list.txt ,并上传到 HDFS 上 /user/hadoop/list.txt

hadoop fs -put list.txt /user/hadoop/list.txt

下载工具

然后,需要你下载本文附件中的压缩包,解压缩之后可以得到两个文件 streaming.jar 和 crctool。其中crctool是一个可以在本地运行的可执行文件(注意:只能在Linux 64位环境下执行),功能和ossutil的hash功能类似,但它只支持从标准输入中读取数据,比如:

cat file.txt | ./crctool 

运行工具

接下去就可以运行DistCheck工具了,具体命令如下:

hadoop jar streaming.jar -Dmapred.reduce.tasks=1 -mapper crctool -file crctool -input /user/hadoop/list.txt -output /user/hadoop/distcheck-out

查看结果

查看工具输出的结果:

[hadoop@emr-header-1 ~]$ hadoop  fs -cat /user/hadoop/distcheck-out/part-00000
hdfs://emr-header-1:9000/user/hadoop/terasort-10g/input/part-m-00000: 5376366475988344152
hdfs://emr-header-1:9000/user/hadoop/terasort-10g/input/part-m-00001: 11439160807767203705
hdfs://emr-header-1:9000/user/hadoop/terasort-10g/input/part-m-00002: 2122411653175000878
hdfs://emr-header-1:9000/user/hadoop/terasort-10g/input/part-m-00003: 7064261157479130820
...

这是HDFS上文件的CRC值,可以和OSS上的文件做比较:

[hadoop@emr-header-1 ~]$ hadoop fs -ls oss://emr-bucket/upload/terasort-10g/input  |grep part | awk '{print $6}' | xargs -L1 ./ossutil stat  | grep Crc64
X-Oss-Hash-Crc64ecma        : 5376366475988344152
X-Oss-Hash-Crc64ecma        : 11439160807767203705
X-Oss-Hash-Crc64ecma        : 2122411653175000878
X-Oss-Hash-Crc64ecma        : 7064261157479130820
...
相关实践学习
借助OSS搭建在线教育视频课程分享网站
本教程介绍如何基于云服务器ECS和对象存储OSS,搭建一个在线教育视频课程分享网站。
目录
相关文章
|
3天前
|
Java
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
java实现从HDFS上下载文件及文件夹的功能,以流形式输出,便于用户自定义保存任何路径下
57 34
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
Hadoop-10-HDFS集群 Java实现MapReduce WordCount计算 Hadoop序列化 编写Mapper和Reducer和Driver 附带POM 详细代码 图文等内容
100 3
|
2月前
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(二)
44 3
|
2月前
|
分布式计算 Java Hadoop
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
Hadoop-09-HDFS集群 JavaClient 代码上手实战!详细附代码 安装依赖 上传下载文件 扫描列表 PUT GET 进度条显示(一)
41 2
|
2月前
|
分布式计算 Hadoop 网络安全
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-08-HDFS集群 基础知识 命令行上机实操 hadoop fs 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
38 1
|
2月前
|
存储 机器学习/深度学习 缓存
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
Hadoop-07-HDFS集群 基础知识 分布式文件系统 读写原理 读流程与写流程 基本语法上传下载拷贝移动文件
51 1
|
2月前
|
分布式计算 资源调度 Hadoop
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
Hadoop-05-Hadoop集群 集群WordCount 超详细 真正的分布式计算 上传HDFS MapReduce计算 YRAN查看任务 上传计算下载查看
52 1
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-24 Sqoop迁移 MySQL到Hive 与 Hive到MySQL SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
96 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-23 Sqoop 数据MySQL到HDFS(部分) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
43 0
|
2月前
|
SQL 分布式计算 关系型数据库
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
Hadoop-22 Sqoop 数据MySQL到HDFS(全量) SQL生成数据 HDFS集群 Sqoop import jdbc ETL MapReduce
56 0