备案控制台

开发者社区云计算文章正文

HDFS文件系统数据备份

2018-02-26 3197

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份，防止用户错误和容灾快照功能。HDFS实现功能：Snapshot 创建的时间复杂度为O(1)，但是不包括INode 的寻找时间只有...

HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的也可以是一部分。常用来作为数据备份，防止用户错误和容灾快照功能。

HDFS实现功能：

Snapshot 创建的时间复杂度为O(1)，但是不包括INode 的寻找时间
只有当修改SnapShot时，才会有额外的内存占用，内存使用量为O(M),M 为修改的文件或者目录数
在DataNode上面的blocks 不会复制，做Snapshot 的文件是纪录了block的列表和文件的大小，但是没有数据的复制
Snapshot 并不会影响HDFS 的正常操作：修改会按照时间的反序记录，这样可以直接读取到最新的数据。快照数据是当前数据减去修改的部分计算出来的。

快照命令

设置一个目录为可快照
$ bin/hdfs dfsadmin -allowSnapshot <path>
取消目录可快照
$ bin/hdfs dfsadmin -disallowSnapshot <path>
生成快照
$ bin/hdfs dfs -createSnapshot <path> [<snapshotName>]
删除快照
$ bin/hdfs dfs -deleteSnapshot <path> <snapshotName>
列出所有可快照目录
$ bin/hdfs lsSnapshottableDir
比较快照之间的差异
$ bin/hdfs snapshotDiff <path> <fromSnapshot> <toSnapshot>

具体例子看光官网

文章标签：

容灾

关键词：

文件存储HDFS版文件系统

突突修

目录

相关文章

萝卜丝丸子

|

4月前

|

存储机器学习/深度学习弹性计算

阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决

阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决

萝卜丝丸子

69 1 1

阿里云开发者

|

7月前

|

存储缓存安全

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS

本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。

阿里云开发者

72747 79 80

听风de歌

|

5月前

|

分布式计算 Hadoop

Hadoop中将数据从HDFS复制到本地文件系统

【7月更文挑战第24天】

听风de歌

1020 4 5

萝卜丝丸子

|

4月前

|

安全数据安全/隐私保护

阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同

阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同

萝卜丝丸子

42 0 0

安然AR

|

存储分布式计算 Hadoop

大数据数据存储的分布式文件系统的HDFS的基本概念和架构的概念的Hadoop 分布式文件系统

Hadoop 分布式文件系统 (HDFS) 是一个开源的分布式文件系统，是 HttpFS 的后继者。

安然AR

152 2 2

技术mix呢

|

分布式计算 Hadoop Unix

解决从本地文件系统上传到HDFS时的权限问题

技术mix呢

2138 0 0

cloudcoder

|

分布式计算 Java Hadoop

HTTPFS: 基于HTTP操作hadoop hdfs文件系统

cloudcoder

6615 0 0

bug菌

|

SQL 存储分布式计算

DataX 从HDFS文件系统上读取数据到FTP文件服务器【举例介绍】

DataX 从HDFS文件系统上读取数据到FTP文件服务器【举例介绍】

bug菌

1283 0 0

DataX 从HDFS文件系统上读取数据到FTP文件服务器【举例介绍】

游客mjas2nthly4nm

|

分布式计算资源调度 Hadoop

大数据处理 | HDFS文件系统配置及基本使用

Spark是目前Apache三大主流开源分布式大数据处理框架之一，它具有低时延、速度快、通用性强、生态系统等优点，此外它不仅可以用于数据的批计算，还可以用于数据的流计算，这让它倍受欢迎。因此，我准备用两篇文章介绍一下Spark集群环境的搭建和基本使用，由于本文是基于HDFS文件存储系统，因此第一篇文章会详细介绍Hadoop集群的搭建与基本使用，第二篇文章会介绍Spark集群的搭建与基本使用。

游客mjas2nthly4nm

573 0 0

大数据处理 | HDFS文件系统配置及基本使用

开源大数据EMR

|

存储 SQL 资源调度

面对业务增长，Uber是如何扩展HDFS文件系统的

Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中，例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长，Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情，本文将详细介绍，Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。

开源大数据EMR

768 0 0

面对业务增长，Uber是如何扩展HDFS文件系统的

热门文章

最新文章

sqoop2:从mysql导出数据到hdfs

Hadoop 2.x HDFS和YARN的启动方式

HDFS－Architecture剖析

基于Hadoop的云盘系统客户端技术难点之二 HDFS文件访问控制

HDFS的linux下开发环境准备

Hadoop大象之旅009-通过Shell操作hdfs

给 admin 新建的 hdfs 文件的权限

Hadoop HDFS概念学习系列之两个和HDFS读写操作最为密切的Hadoop包（二十）

HDFS的文件操作

使用oracle的大数据工具ODCH访问HDFS数据文件

Hadoop的HDFS的特点高吞吐量

Hadoop的HDFS的特点高可靠性

实时计算 Flink版产品使用合集之是否可以使用 Iceberg 将数据写入 HDFS

Hadoop分布式文件系统（HDFS）

实验:熟悉常用的HDFS操作

【分布式计算框架】HDFS常用操作及编程实践

Hadoop的HDFS问题

阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS

[AIGC 大数据基础]浅谈hdfs

[AIGC 大数据基础] 浅谈hdfs

相关课程

更多

Hadoop 分布式文件系统 HDFS

分布式文件存储系统技术及实现

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展

HBase 数据备份与恢复

云HBase内核

相关实验场景

更多

利用HBR实现文件存储NAS备份

下一篇

阿里云对象存储OSS收费标准：存储、流量和请求等多个计费项详解