HDFS文件系统数据备份

简介: HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的 也可以是一部分。常用来作为数据备份,防止用户错误和容灾快照功能。HDFS实现功能:Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间只有...

HDFS快照是一个只读的基于时间点文件系统拷贝。快照可以是整个文件系统的 也可以是一部分。常用来作为数据备份,防止用户错误和容灾快照功能。

HDFS实现功能:

  • Snapshot 创建的时间 复杂度为O(1),但是不包括INode 的寻找时间
  • 只有当修改SnapShot时,才会有额外的内存占用,内存使用量为O(M),M 为修改的文件 或者目录数
  • 在DataNode上面的blocks 不会复制,做Snapshot 的文件是纪录了block的列表和文件的 大小,但是没有数据的复制
  • Snapshot 并不会影响HDFS 的正常操作:修改会按照时间的反序记录,这样可以直接读 取到最新的数据。快照数据是当前数据减去修改的部分计算出来的。

快照命令

  • 设置一个目录为可快照
    $ bin/hdfs dfsadmin -allowSnapshot <path>
  • 取消目录可快照
    $ bin/hdfs dfsadmin -disallowSnapshot <path>
  • 生成快照
    $ bin/hdfs dfs -createSnapshot <path> [<snapshotName>]
  • 删除快照
    $ bin/hdfs dfs -deleteSnapshot <path> <snapshotName>
  • 列出所有可快照目录
    $ bin/hdfs lsSnapshottableDir
  • 比较快照之间的差异
    $ bin/hdfs snapshotDiff <path> <fromSnapshot> <toSnapshot>

具体例子看光官网

目录
相关文章
|
4月前
|
存储 机器学习/深度学习 弹性计算
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
阿里云EMR数据湖文件系统问题之OSS-HDFS全托管服务的问题如何解决
|
7月前
|
存储 缓存 安全
阿里云EMR数据湖文件系统: 面向开源和云打造下一代 HDFS
本文作者详细地介绍了阿里云EMR数据湖文件系统JindoFS的起源、发展迭代以及性能。
72747 79
|
5月前
|
分布式计算 Hadoop
|
4月前
|
安全 数据安全/隐私保护
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
阿里云EMR数据湖文件系统问题之JindoFS的INode定义与HDFS有何不同
|
存储 分布式计算 Hadoop
大数据数据存储的分布式文件系统的HDFS的基本概念和架构的概念的Hadoop 分布式文件系统
Hadoop 分布式文件系统 (HDFS) 是一个开源的分布式文件系统,是 HttpFS 的后继者。
152 2
|
SQL 存储 分布式计算
DataX 从HDFS文件系统上读取数据到FTP文件服务器 【举例介绍】
DataX 从HDFS文件系统上读取数据到FTP文件服务器 【举例介绍】
1283 0
DataX 从HDFS文件系统上读取数据到FTP文件服务器 【举例介绍】
|
分布式计算 资源调度 Hadoop
大数据处理 | HDFS文件系统配置及基本使用
Spark是目前Apache三大主流开源分布式大数据处理框架之一,它具有低时延、速度快、通用性强、生态系统等优点,此外它不仅可以用于数据的批计算,还可以用于数据的流计算,这让它倍受欢迎。因此,我准备用两篇文章介绍一下Spark集群环境的搭建和基本使用,由于本文是基于HDFS文件存储系统,因此第一篇文章会详细介绍Hadoop集群的搭建与基本使用,第二篇文章会介绍Spark集群的搭建与基本使用。
大数据处理 | HDFS文件系统配置及基本使用
|
存储 SQL 资源调度
面对业务增长,Uber是如何扩展HDFS文件系统的
Uber将基于Hadoop的批量和流式分析应用在了广泛的场景中,例如反作弊、机器学习和ETA计算等。随着过去几年的业务增长,Uber的数据容量和访问负载也呈现了指数级增长的趋势。同时保证系统扩展能力和高性能并不是一件容易的事情,本文将详细介绍,Uber是如何通过这些改进措施来保证存储系统的持续增长、稳定和可靠的。
面对业务增长,Uber是如何扩展HDFS文件系统的