开发者社区> 问答> 正文

Hadoop多文件输出追加文件:报错

hadoop多文件输出,有多个reduce,但是,有些key值一样的结果我想输出到一个文件中。可是,由于有多个reduce,前一个reduce输出的文件将被后面的reduce的输出给覆盖。Hadoop的文件IO类中有向文件结尾写数据的类吗?FileSystem里面有一个append()方法,但是这个方法要求要有文件存在,所以不行,而create()方法即使我将第2个参数设置成false,依然要覆盖文件。请问,该怎么写代码才能多文件输出而不覆盖之前的文件?

展开
收起
kun坤 2020-06-14 09:03:53 548 0
1 条回答
写回答
取消 提交回答
  • HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内容,可以参见https://issues.apache.org/jira/browse/HADOOP-8230。可以再看看http://www.quora.com/HDFS/Is-HDFS-an-append-only-file-system-Then-how-do-people-modify-the-files-stored-on-HDFS。正如HADOOP-8230所述,只需要将hdfs-site.xml中的以下属性修改为true就行。

    1 2 dfs.support.append 3 true 4   目前如何在命令行里面给HDFS文件中追加内容我还没找到相应的方法。但是,我们可以通过Hadoop提供的API实现文件内容追加,如何实现?这里我写了一个简单的测试程序:

    01 package com.wyp; 02

    03 import org.apache.hadoop.conf.Configuration; 04 import org.apache.hadoop.fs.FileSystem; 05 import org.apache.hadoop.fs.Path; 06 import org.apache.hadoop.io.IOUtils; 07

    08 import java.io.*; 09 import java.net.URI; 10

    11 /** 12 * blog: http://www.iteblog.com/ 13 * Date: 14-1-2 14 * Time: 下午6:09 15 */ 16 public class AppendContent { 17 public static void main(String[] args) { 18 String hdfs_path = "hdfs://mycluster/home/wyp/wyp.txt";//文件路径 19 Configuration conf = new Configuration(); 20 conf.setBoolean("dfs.support.append", true); 21

    22 String inpath = "/home/wyp/append.txt"; 23 FileSystem fs = null; 24 try { 25 fs = FileSystem.get(URI.create(hdfs_path), conf); 26 //要追加的文件流,inpath为文件 27 InputStream in = new 28 BufferedInputStream(new FileInputStream(inpath)); 29 OutputStream out = fs.append(new Path(hdfs_path)); 30 IOUtils.copyBytes(in, out, 4096, true); 31 } catch (IOException e) { 32 e.printStackTrace(); 33 } 34 } 35 } 将上面的代码打包成jar(这里我取名为hdfs.jar)文件,然后上传到机器中,比如我上传到我的home目录,在程序运行前,我们来看看HDFS中wyp.txt文件中的内容有什么

    1 [wyp@l-datalogm1.data.cn1 ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs
    2 -cat /home/wyp/wyp.txt 3 123456 4 [wyp@l-datalogm1.data.cn1 ~]$ 好,我们再来看看/home/wyp/append.txt文件中的内容:

    1 [wyp@l-datalogm1.data.cn1 ~]$ vim append.txt 2 wyp append test 看完代码中所涉及到的两个文件之后,我们再运行hdfs.jar

    1 [wyp@l-datalogm1.data.cn1 ~]$ /home/q/hadoop-2.2.0/bin/hadoop jar
    2 hdfs.jar com.wyp.AppendContent 运行完之后,看看wyp.txt内容

    1 [wyp@l-datalogm1.data.cn1 ~]$ /home/q/hadoop-2.2.0/bin/hadoop fs
    2 -cat /home/wyp/wyp.txt 3 123456 4 wyp append test 好了,wyp.txt文件已经追加了append.txt文件中的内容了。

    原文出自:http://www.iteblog.com/archives/881

    ========================================================================

    hadoop 测试例子:

    ========================================================================

    public static void main(String[] args) { // TODO Auto-generated method stub

    String newFilePath = args[0]; String totalFilePath = args[1];

    System.out.println("new file path:"+newFilePath); System.out.println("total file path:"+totalFilePath);

    Configuration conf = new Configuration(); conf.setBoolean("dfs.support.append", true);

    FileSystem fs_new = null; FileSystem fs_total = null;

    InputStream in = null; OutputStream out = null;

    try { fs_new = FileSystem.get(URI.create(newFilePath), conf); fs_total = FileSystem.get(URI.create(totalFilePath), conf);

    in = new BufferedInputStream(fs_new.open(new Path(newFilePath))); out = fs_total.append(new Path(totalFilePath));

    IOUtils.copyBytes(in, out, conf, true);

    } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); }

    2021-02-22 13:27:02
    赞同 展开评论 打赏
问答排行榜
最热
最新

相关电子书

更多
《构建Hadoop生态批流一体的实时数仓》 立即下载
零基础实现hadoop 迁移 MaxCompute 之 数据 立即下载
CIO 指南:如何在SAP软件架构中使用Hadoop 立即下载

相关实验场景

更多