HDFS 海量文件归档到 OSS | 学习笔记

简介: 快速学习 HDFS 海量文件归档到 OSS。

开发者学堂课程【数据湖 JindoFS + OSS 实操干货36讲HDFS 海量文件归档到 OSS】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/833/detail/13963


HDFS 海量文件归档到 OSS

内容介绍

一、背景

二、功能介绍

三、演示

 

一、背景

1.pngHDFS 数据迁移
●用户需要将数据存储在 IDC 机房的 HDFS 的集群内。
HDFS的集群的空间依赖本地磁盘空间,本地磁盘空间有限,但是业务数据不断增长。
●计算存储分离虽然可以不用担心存储容量,但是对象存储相关性能可能不及本地HDFS 性能。
●业务数据的时效性,业务数据随时间迁移数据价值也会相对降低,从而导致数据的存储成本上升。

 

二、功能介绍

1.HDFS 数据归档

1Jindo DistCp 工具

●全量支持HDFS/OSS/S3之间的的数据拷贝场景。

●重点优化 HDFS/OSS 数据拷贝场景,支持 No- Rename 拷贝。

●支持 DistCp 过程数据 CheckSum 校验。https://github.com/aliyun/alibabacloud-indofs/blob/master/docs/indo distcp/indo-distcp-overview.md
2)通过 DistCp 工具选项--policy 指定数据存储类型

 

2.HDFS 数据迁移命令  

●写入低频数据 hadoop jar jindo-distcp-3.5.0.jar --src /data - dest os://destBuckev/ - ossKey yourkey -ossSecret yoursecret --ossEndPoint Ooss -cn-oo.aliyuncs .com --policy ia --parallelism 10
●写入归档数据 hadoop jar jindo- distcp-3.5.0.jar --src /data --dest oss://destBucket/ --ossKey yourkey --ossSecret yoursecret -- ossEndPoint Oss -Cn-xx aliyuncs com --policy archive --parallelism 10
●写入冷归档数据 hadoop jar jindo- dstcp-.5.ar - -SrC /data --dest s/es/tuck/ -key youky--sSsceyoursecret ossEndPoint oss -cn x liuncs com -polio coldArchive -pralies 10

3.HDFS 命令查看数据类型  

HDFS LS2 扩展命令               hdfs-fs-s2 oss//xxxxx/xxxxx

●文档访问链接

https://qithub.com/aliyun/alibabacloud-jindofs/blob/master/docs/indo-distcp/jindo-distcp-hdtsToOss-pre.md

三、演示

操作:

●准备测试脚本,包含 DistCp OSS 各种存储类型的文件,测试文件大小为10M

●执行测试脚本进行数据拷贝。

●查看 OSS 数据的存储类型。

 

 

 

 

相关实践学习
通义万相文本绘图与人像美化
本解决方案展示了如何利用自研的通义万相AIGC技术在Web服务中实现先进的图像生成。
相关文章
|
6月前
|
Web App开发 监控 安全
OSS客户端签名直传实践:Web端安全上传TB级文件方案(含STS临时授权)
本文深入解析了客户端直传技术,涵盖架构设计、安全机制、性能优化等方面。通过STS临时凭证与分片上传实现高效安全的文件传输,显著降低服务端负载与上传耗时,提升系统稳定性与用户体验。
630 2
|
10月前
|
消息中间件 监控 数据挖掘
【有奖实践】轻量消息队列(原 MNS)订阅 OSS 事件实时处理文件变动
当你需要对对象存储 OSS(Object Storage Service)中的文件变动进行实时处理、同步、监听、业务触发、日志记录等操作时,你可以通过设置 OSS 的事件通知规则,自定义关注的文件,并将 OSS 事件推送到轻量消息队列(原 MNS)的队列或主题中,开发者的服务即可及时收到相关通知,并通过消费消息进行后续的业务处理。
237 91
|
文字识别 算法 API
视觉智能开放平台产品使用合集之上传素材文件不在同一地域的OSS,怎么上传多张图片
视觉智能开放平台是指提供一系列基于视觉识别技术的API和服务的平台,这些服务通常包括图像识别、人脸识别、物体检测、文字识别、场景理解等。企业或开发者可以通过调用这些API,快速将视觉智能功能集成到自己的应用或服务中,而无需从零开始研发相关算法和技术。以下是一些常见的视觉智能开放平台产品及其应用场景的概览。
178 2
|
存储 运维 Serverless
函数计算产品使用问题之OSS触发器是否可以只设置文件前缀
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
|
消息中间件 分布式计算 DataWorks
DataWorks产品使用合集之如何使用Python和阿里云SDK读取OSS中的文件
DataWorks作为一站式的数据开发与治理平台,提供了从数据采集、清洗、开发、调度、服务化、质量监控到安全管理的全套解决方案,帮助企业构建高效、规范、安全的大数据处理体系。以下是对DataWorks产品使用合集的概述,涵盖数据处理的各个环节。
|
运维 Serverless 对象存储
函数计算产品使用问题之如何配合OSS实现接口收到的图片或文件直接存入OSS
函数计算产品作为一种事件驱动的全托管计算服务,让用户能够专注于业务逻辑的编写,而无需关心底层服务器的管理与运维。你可以有效地利用函数计算产品来支撑各类应用场景,从简单的数据处理到复杂的业务逻辑,实现快速、高效、低成本的云上部署与运维。以下是一些关于使用函数计算产品的合集和要点,帮助你更好地理解和应用这一服务。
214 0
|
分布式计算 DataWorks 数据管理
DataWorks操作报错合集之使用OSS读取CSV文件到ODPS时遇到报错,一般是什么导致的
DataWorks是阿里云提供的一站式大数据开发与治理平台,支持数据集成、数据开发、数据服务、数据质量管理、数据安全管理等全流程数据处理。在使用DataWorks过程中,可能会遇到各种操作报错。以下是一些常见的报错情况及其可能的原因和解决方法。
|
2月前
|
存储 人工智能 Cloud Native
阿里云渠道商:OSS与传统存储系统的差异在哪里?
本文对比传统存储与云原生对象存储OSS的架构差异,涵盖性能、成本、扩展性等方面。OSS凭借高持久性、弹性扩容及与云服务深度集成,成为大数据与AI时代的优选方案。
|
4月前
|
存储 运维 安全
阿里云国际站OSS与自建存储的区别
阿里云国际站对象存储OSS提供海量、安全、低成本的云存储解决方案。相比自建存储,OSS具备易用性强、稳定性高、安全性好、成本更低等优势,支持无限扩展、自动冗余、多层防护及丰富增值服务,助力企业高效管理数据。
|
4月前
|
存储 域名解析 前端开发
震惊!不买服务器,还可以用阿里云国际站 OSS 轻松搭建静态网站
在数字化时代,利用阿里云国际站OSS可低成本搭建静态网站。本文详解OSS优势及步骤:创建Bucket、上传文件、配置首页与404页面、绑定域名等,助你快速上线个人或小型业务网站,操作简单,成本低廉,适合初学者与中小企业。