备案控制台

开发者社区> 问答> 正文

HDFS如何读文件？

HDFS如何读文件？

展开

收起

芯在这 2021-12-05 19:40:37 299 0

1 条回答

写回答

取消提交回答

真的很搞笑

（1）客户端通过调用FileSystem对象的open()来读取希望打开的文件。

（2）DistributedFileSystem通过RPC来调用namenode，以确定文件的开头部分的块位置。对于每一块，namenode返回具有该块副本的datanode地址。DistributedFileSystem 返回一个FSDataInputStream对象给client读取数据，FSDataInputStream转而包装成一个DFSInputStream对象

（3）client对这个输入流调用read()方法。存储着文件开头部分的块的数据节点的地址DFSInputStream随即与这些块最近的datanode相连接。

（4）通过在数据流中反复调用read()，数据会从datanode返回client。

（5）到达块的末端时，DFSInputStream会关闭与datanode间的联系，然后为下一个块找到最佳的datanode。client端只需要读取一个连续的流，这些对于client来说都是透明的。

client在读取文件时，如果与datanode通信遇到错误，那么它就会去尝试对这个块来说下一个最近的块，并记住那个故障的datanode，以保证不会再对之后的块进行徒劳无益的尝试。

client也会确认datanode发来的数据的校验和。如果发现一个损坏的块，client在会试图从别的datanode中读取一个块的副本之前，将这个错误报告给namenode。

client检索数据时，总是被namenode指引到块中最好的datanode。（这里涉及到一个数据块选择算法）

集群中，namenode仅提供数据块的位置请求（存储在内存中，十分高效），不是提供数据。否则如果客户端数量增长，namenode就会快速成为一个“瓶颈”。

2021-12-05 22:25:57

赞同展开评论打赏

问答标签：

文件存储HDFS版读文件

问答地址：

开发者社区 > 云计算 > 问答

版权声明：本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

相关问答

HDFS读文件的流程是什么呢？

501

1

0

HDFS的API操作读文件怎么做？

565

1

0

为什么下载了Hadoop之后直接能够在Linux系统上运行hdfs文件呀？

1067

1

0

Linux文件系统中是怎么运行HDFS文件的呀？

840

1

0

HDFS存储的文件之间的映射关系是什么样子的呀？

728

1

0

HDFS当中文件是怎么存储的呀？

643

1

0

HDFS中登陆客户端要对文件进行操作时会先在哪里找文件的位置呀?

596

1

0

Java中HDFS为什么不能存小文件啊？

1617

1

0

flink任务取消产生的hdfs中间状态文件怎么解决呢？哪位大佬知道啊？任务取消计算结果落到hdfs

1206

1

0

我现在碰到了批处理读取数据不落盘，全读完才去sink，这个临时文件我要怎么去找，是在hdfs里面吗？

477

1

0

问答排行榜

最热

最新

1 【大咖问答】对话PostgreSQL 中国社区发起人之一，阿里云数据库高级专家德哥 1819154

2 据说在家办公的程序员是这样写代码的？ 1793325

3 阿里云开放端口权限 690367

4 如何升级配置 536344

5 【藏经阁一起读（27）】本周推荐《Apache Flink案例集（2022版）》，你有哪些心得？ 522937

6 【精品问答】python技术1000问(1) 514160

7 Flink Forward Asia 2021 有奖问答 512935

8 OceanBase 使用动画（持续更新） 359399

9 阿里云LNAMP(Linux + Nginx + Apache + MySQL + PHP)环境一键安装脚本 329819

10 OSS存储服务-客户端工具 321651

11 为体验实验室取一个新名字。 307517

12 企业邮箱发送邮件时，若出现投递失败产生退信，内容提示包含如下： the mta server of * reply:550 failed to meet SPF requirements 或者 the mta server of 163.com — 163mx01.mxmail.netease.com(220.181.14.141) reply:550 MI:SPF mx14,QMCowECpA0qTiftVaeB3Cg—.872S2 1442548128 http://mail.163.com/help 304140

13 Win Server 2003-2016 加密勒索事件必打补丁合集 295361

14 FLASH播放器，在IE浏览器下显示请确定您的域名已完成备案和CNAME绑定 284277

15 安全组详解，新手必看教程 277369

16 写code还是做管理，开发者如何进行职业规划？ 269255

17 惊喜翻倍：免费ECS+免费环境配置~！(ECS免费体验6个月活动3月31日结束) 255897

18 阿里云手机和阿云浏览器连接问题专帖 235710

19 支付宝H5 下载的时候，提示【请确保该下载文件来源安全,如需浏览,请长按网址复制后使用浏览器访问】 232352

20 请问阿里云邮箱如何开启SMTP服务啊！ 225919

1 AI时代，聊聊如何从海量数据中挖掘金矿？ 276

2 与 AI “对话”，多模态音视频交互能给生活提供多大便利？ 476

3 AI造势，学习机爆火，距离“AI家教”还有多远？ 377

4 “99套餐”ECS云端问答节！回答问题赢阿里云纪念衫、加湿器等好礼！ 563

5 短信服务发送失败提示签名黑名单 289

6 2024年接近尾声，你对即将到来的2025年有什么样的期待或愿望？ 2229

7 当面对多种不同格式的文档时，如何让AI系统更好地处理复杂文档？ 680

8 你好，需要阿里免费的企业邮箱，谢谢 175

9 宜搭普通表单中包含子表单，怎样把子表单的内容全部添加到另一个普通表单中？ 149

10 通义APP上新【局部风格化】新功能，万物皆可毛茸茸你体验了吗？ 968

11 一个专属的智能 AI 总结助手，能在多大程度上提升工作效率？ 1207

12 宜搭是否可以和钉钉OA审批打通，钉钉OA审批提交的数据宜搭是否可以联动字段数据过来使用？ 336

13 宜搭表单中的复选框问题 319

14 关于宜搭普通表单如何获取钉钉通讯录数据以及考勤数据的问题。 235

15 AI视频技术的发展是否会影响原创内容的价值？ 1560

16 日常工作中，开发者应该如何避免“效率陷阱”？ 863

17 Nacos 2.4.3在linux X86_64服务器上启动报错 245

18 docker login报错Error response from daemon: Filtered 236

19 AI 编码助手能否引领编程革命？一起探索 AI 对研发流程的变革 1911

20 阿里云大学生300优惠券可以用于哪些产品 206

相关课程

更多

Hadoop 分布式文件系统 HDFS

1179

43

去学习

推荐问答

乘风问答官招募中！机械键盘免费拿

相关电子书

更多

海量数据分布式存储——Apache HDFS之最新进展 立即下载

ALLUXIO 立即下载

低代码开发师（初级）实战教程 立即下载