Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践

本文涉及的产品
对象存储 OSS,20GB 3个月
云备份 Cloud Backup,100GB 3个月
对象存储 OSS,内容安全 1000次 1年
简介: 介绍Hadoop 大数据系统在文件存储 HDFS 版上的最佳实践

在当前的数字经济时代,数据被列为跟土地,资本等并列的新生产要素,数据的存储和处理被众多行业所深度依赖。Hadoop经过多年的发展,已经成为了事实上的开源大数据标准解决方案,被众多公司采纳和使用;而且随着技术的不断迭代更新,Hadoop生态也已经从最初狭义的HDFS,MapReduce和YARN三大服务组件,逐渐发展出了Spark,Flink等新的处理框架,成长为功能更加完善和丰富的广义Hadoop生态。同时以阿里云和AWS为代表的的云服务平台,也提供了支持广义Hadoop生态系统的编排产品EMR,进一步推动了大数据生态的发展。

虽然Hadoop生态中的计算框架不断演进,但都继续选择HDFS作为底层的分布式存储系统,HDFS也因此成长为开源大数据场景的统一分布式存储系统,是自建大数据存储的首选系统:



随着大数据领域的深入发展,在HDFS之上直接生长着丰富的基础计算引擎,KV存储引擎,多种OLAP引擎,以及不同领域的机器学习引擎;另外还有多种数据导入系统,方便不同来源的数据进入HDFS:负责结构化数据导入的Sqoop,负责日志数据导入的Flume,负责消息数据导入的Kafka。这些引擎和系统在数据处理的不同阶段发挥各自的特有的作用,HDFS作为统一的中转站来存储和交换数据,共同来完成数据全生命周期的处理。


HDFS经过多年的发展已经相对成熟,但由于分布式存储系统自身的复杂性,在应对日渐重要且复杂的大数据处理需求的时候,自建HDFS集群面临诸多痛点:

  1. 成本高
  1. 硬件成本高
  1. 集群起建成本高:为了保证数据安全性,即使初始需要较少的存储空间,HDFS集群也需要保证3台机器以上的规模。
  2. 单次扩容步长大:每次都需要以整物理机的粒度进行扩容,新增存储需求很小的情况下也不例外。
  3. 容量下降后无法自动缩容:为了应对容量峰值扩容的机器,在容量下降后也无法自动缩容。
  1. 存算分离难,存储和计算资源必须同步扩容
  1. 链接和线程是Stream独占,难以支撑存算分离后的高并发
  2. Shuffle数据依赖本地存储,存储和计算无法完全分离
  1. 运维难
  1. 运维复杂
  1. 硬件运维:需要解决硬件机型设计,预算采购,集群扩缩容,硬件故障,机器过保等诸多问题。
  2. 软件运维:需要面对访问失败/访问慢,社区版本引入与测试,软件版本线上升级等软件难题。
  1. 运维人才要求高:系统复杂度高,需要专业的运维人才。
  2. 稳定性难以保证:没有SLA保障,复杂的开源存储系统对监控报警和故障响应要求高,容易导致故障。
  1. 性能差
  1. 隔离性差:多业务公用集群的情况下无法做到性能隔离,相互干扰影响性能。
  2. 延迟高:软件栈复杂,难以发挥高速介质 US级别的延迟优势,延迟敏感性业务难以落地。
  3. 无异步接口:没有异步接口,存储访问并发度受限于线程资源,难以提升。


考虑到HDFS在大数据领域的发展现状,阿里云的文件存储HDFS版提供了一个云上统一的大数据存储方案:既能够兼容HDFS,保证原有的大数据处理系统可以无缝迁移,继续正常运转;同时又能够解决掉自建HDFS的痛点,上层业务更专注于大数据处理系统本身的演进,更好的解决业务问题。


为了方便Hadoop生态系统平滑的迁移到文件存储HDFS版,会陆续推出常用的大数据系统在文件存储HDFS版的最佳实践。

  • 在文件存储HDFS版上使用 Apache Spark
  • 文件存储HDFS版和对象存储OSS双向数据迁移
  • 在文件存储HDFS版上使用 Apache Flink
  • 在文件存储HDFS版上使用 Apache HBase
  • 在文件存储HDFS版上使用 Presto
  • 在文件存储HDFS版上使用 Apache Tez
  • 使用 Fuse-DFS 挂载文件存储HDFS版
  • 文件存储HDFS版和数据库MySQL双向数据迁移
  • 迁移开源HDFS数据到文件存储HDFS版
  • 在文件存储HDFS版上使用 CDH6
  • 在文件存储HDFS版上使用 TensorFlow

  • 了解更多关于文件存储HDFS版的产品信息,欢迎访问https://www.aliyun.com/product/alidfs

    如果您对文件存储HDFS版有任何问题,欢迎钉钉扫描以下二维码加入文件存储HDFS版技术交流群。

    相关实践学习
    基于MaxCompute的热门话题分析
    本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
    SaaS 模式云数据仓库必修课
    本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
    目录
    相关文章
    |
    25天前
    |
    数据采集 存储 数据处理
    数据平台问题之知识管理系统的效果如何评估
    数据平台问题之知识管理系统的效果如何评估
    |
    20天前
    |
    分布式计算 DataWorks 关系型数据库
    MaxCompute 生态系统中的数据集成工具
    【8月更文第31天】在大数据时代,数据集成对于构建高效的数据处理流水线至关重要。阿里云的 MaxCompute 是一个用于处理大规模数据集的服务平台,它提供了强大的计算能力和丰富的生态系统工具来帮助用户管理和处理数据。本文将详细介绍如何使用 DataWorks 这样的工具将 MaxCompute 整合到整个数据处理流程中,以便更有效地管理数据生命周期。
    39 0
    |
    25天前
    |
    分布式计算 资源调度 Hadoop
    Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
    Hadoop入门基础(五):Hadoop 常用 Shell 命令一网打尽,提升你的大数据技能!
    |
    25天前
    |
    存储 SQL 分布式计算
    Hadoop生态系统概述:构建大数据处理与分析的基石
    【8月更文挑战第25天】Hadoop生态系统为大数据处理和分析提供了强大的基础设施和工具集。通过不断扩展和优化其组件和功能,Hadoop将继续在大数据时代发挥重要作用。
    |
    27天前
    |
    分布式计算 搜索推荐 物联网
    大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
    大数据及AI典型场景实践问题之通过KafKa+OTS+MaxCompute完成物联网系统技术重构如何解决
    |
    27天前
    |
    人工智能 分布式计算 架构师
    大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
    大数据及AI典型场景实践问题之基于MaxCompute构建Noxmobi全球化精准营销系统如何解决
    |
    27天前
    |
    存储 分布式计算 Hadoop
    【揭秘Hadoop背后的秘密!】HDFS读写流程大曝光:从理论到实践,带你深入了解Hadoop分布式文件系统!
    【8月更文挑战第24天】Hadoop分布式文件系统(HDFS)是Hadoop生态系统的关键组件,专为大规模数据集提供高效率存储及访问。本文深入解析HDFS数据读写流程并附带示例代码。HDFS采用NameNode和DataNode架构,前者负责元数据管理,后者承担数据块存储任务。文章通过Java示例演示了如何利用Hadoop API实现数据的写入与读取,有助于理解HDFS的工作原理及其在大数据处理中的应用价值。
    39 1
    |
    22天前
    |
    SQL 分布式计算 数据可视化
    基于Hadoop的大数据可视化方法
    【8月更文第28天】在大数据时代,有效地处理和分析海量数据对于企业来说至关重要。Hadoop作为一个强大的分布式数据处理框架,能够处理PB级别的数据量。然而,仅仅完成数据处理还不够,还需要将这些数据转化为易于理解的信息,这就是数据可视化的重要性所在。本文将详细介绍如何使用Hadoop处理后的数据进行有效的可视化分析,并会涉及一些流行的可视化工具如Tableau、Qlik等。
    55 0
    |
    22天前
    |
    存储 分布式计算 资源调度
    Hadoop生态系统概览:从HDFS到Spark
    【8月更文第28天】Hadoop是一个开源软件框架,用于分布式存储和处理大规模数据集。它由多个组件构成,旨在提供高可靠性、高可扩展性和成本效益的数据处理解决方案。本文将介绍Hadoop的核心组件,包括HDFS、MapReduce、YARN,并探讨它们如何与现代大数据处理工具如Spark集成。
    48 0

    热门文章

    最新文章