我的问题陈述很简单。添加重复键的值,然后显示具有最高值的键。我能够运行将所有值相加的map reduce Job。但是我不知道如何在以前的reduce作业的输出上运行reduce作业。
Input Data:
Varun,56
Jash,40
Ayushi,23
Jash,20
Varun,17
Sampada,16
Uchchay,15
Got Converted to:
Ayushi 23
Jash 60
Sampada 16
Uchchay 15
Varun 73
我希望我的程序仅显示:
Varun 73
但是我不知道如何在以前的reduce作业的输出上运行reduce作业。—— 第一个job会配置输出目录,一般是在hdfs上,这个目录就是这个job的输出。 第二个job把第一个job的输出目录作为第二个job的输入目录配置,第二个job就会读取这个目录下的文件来执行,结果再输出到另外一个目录。第二个job的处理逻辑就是max。
版权声明:本文内容由阿里云实名注册用户自发贡献,版权归原作者所有,阿里云开发者社区不拥有其著作权,亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容,填写侵权投诉表单进行举报,一经查实,本社区将立刻删除涉嫌侵权内容。