mapreduce 实现带有ex前缀的词频统计wordcount 大作业-阿里云开发者社区

mapreduce 实现带有ex前缀的词频统计wordcount 大作业

2024-06-12 46

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： mapreduce 实现带有ex前缀的词频统计wordcount 大作业

介绍：

我们将介绍如何使用MapReduce来实现带有一点变化的词频统计，特别是我们将关注以“ex”前缀开头的单词。通过结合代码和解释，让我们一起深入探讨“ExWordCount2”的奥秘。

输入为6篇英文短篇小说，图片如下：

代码解析：

首先，让我们看一下Mapper的实现。在 TokenizerMapper 类中，我们的mapper将输入文本拆分为单词，并且仅保留以“ex”开头的单词。同时，我们对这些单词进行了标准化处理，确保它们不受非字母数字字符的干扰。然后，我们将这些单词作为键值对发射出去，其中键是单词本身，值为1，表示单词出现了一次。

public static class TokenizerMapper extends Mapper<Object, Text, Text, IntWritable> {
    private final static IntWritable one = new IntWritable(1);
    private Text word = new Text();

    public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split("\\s+");
        for (String w : words) {
            w = w.toLowerCase().replaceAll("[^a-zA-Z0-9]", ""); // Remove non-alphanumeric characters
            if (w.startsWith("ex")) {
                word.set(w);
                context.write(word, one);
            }
        }
    }
}

接下来是Reducer的实现。在 IntSumReducer 类中，我们对来自Mapper的输出进行汇总，将相同键的值相加以计算出现次数的总和。最终，我们将每个以“ex”前缀开头的单词及其出现次数作为输出。

public static class IntSumReducer extends Reducer<Text, IntWritable, Text, IntWritable> {
    private IntWritable result = new IntWritable();

    public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
        int sum = 0;
        for (IntWritable val : values) {
            sum += val.get();
        }
        result.set(sum);
        context.write(key, result);
    }
}

组合器的应用：

为了提高效率，我们引入了一个组合器。组合器在Mapper的输出进行本地聚合，以减少数据传输和处理负担。在我们的例子中，IntSumReducer 类同时作为组合器，执行局部合并操作，将相同单词的计数相加。

执行过程：

在 main 方法中，我们初始化了MapReduce作业，并设置了必要的配置，如输入和输出路径，以及Mapper和Reducer类。然后，我们启动了作业，并观察Mapper、组合器和Reducer阶段的执行情况。

public static void main(String[] args) throws Exception {
    Configuration conf = new Configuration();
    Job job = Job.getInstance(conf, "ExWordCount2");
    job.setJarByClass(ExWordCount2.class);
    job.setMapperClass(TokenizerMapper.class);
    job.setCombinerClass(IntSumReducer.class); // Combiner to perform local aggregation
    job.setReducerClass(IntSumReducer.class);
    job.setOutputKeyClass(Text.class);
    job.setOutputValueClass(IntWritable.class);
    FileInputFormat.addInputPaths(job, "data");
    FileOutputFormat.setOutputPath(job, new Path("ExWordCount2"));
    System.exit(job.waitForCompletion(true) ? 0 : 1);
}

结论：

通过本博客文章，我们不仅学习了如何实现带有变化的词频统计，还深入了解了MapReduce的工作原理。我们了解了Mapper如何将输入数据转换为键值对，Reducer如何对这些键值对进行汇总，以及组合器如何在整个过程中提高性能。通过结合代码和解释，我们希望读者能够更好地理解

MapReduce，并能够应用它来解决实际的大数据问题。

mapreduce 实现带有ex前缀的词频统计wordcount 大作业

介绍：

代码解析：

组合器的应用：

结论：

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

mapreduce 实现带有ex前缀的词频统计wordcount 大作业

介绍：

代码解析：

组合器的应用：

结论：

热门文章

最新文章

相关课程

相关电子书