备案控制台

开发者社区大数据文章正文

2 weekend110的hadoop的自定义排序实现 + mr程序中自定义分组的实现

2017-11-14 1579

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

我想得到按流量来排序，而且还是倒序，怎么达到实现呢？

达到下面这种效果，

默认是根据key来排，

我想根据value里的某个排，

解决思路:将value里的某个，放到key里去，然后来排

下面，开始weekend110的hadoop的自定义排序实现

将FlowSortMapper、FlowSortReduce、FlowSortRunner、FlowSortBean，全放到一个SortMR里。

V2我们不要，怎么写代码？

那么，我们想要实现由

达到下面这种效果，

也要修改FlowBean代码

多领悟揣摩。

关于SotrMR和FlowBean(增改过的)

关于FlowMapper、FlowReducer、FlowSumRunner、FlowBean

之间的对比

[hadoop@weekend110 ~]$ /home/hadoop/app/hadoop-2.4.1/bin/hadoop fs -cat /flow/sortoutput/part-r-00000

13726238888 2481 24681 27162

13726230503 2481 24681 27162

13925057413 63 11058 11121

18320173382 18 9531 9549

13502468823 102 7335 7437

13660577991 9 6960 6969

13922314466 3008 3720 6728

13560439658 5892 400 6292

84138413 4116 1432 5548

15013685858 27 3659 3686

15920133257 20 3156 3176

13602846565 12 1938 1950

15989002119 3 1938 1941

13926435656 1512 200 1712

18211575961 12 1527 1539

13560436666 954 200 1154

13480253104 180 200 380

13760778710 120 200 320

13826544101 0 200 200

13926251106 0 200 200

13719199419 0 200 200

默认分组是哈希，

/**

* Licensed to the Apache Software Foundation (ASF) under one

* or more contributor license agreements. See the NOTICE file

* distributed with this work for additional information

* regarding copyright ownership. The ASF licenses this file

* to you under the Apache License, Version 2.0 (the

* "License"); you may not use this file except in compliance

* with the License. You may obtain a copy of the License at

*

* http://www.apache.org/licenses/LICENSE-2.0

*

* Unless required by applicable law or agreed to in writing, software

* distributed under the License is distributed on an "AS IS" BASIS,

* WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.

* See the License for the specific language governing permissions and

* limitations under the License.

*/

package org.apache.hadoop.mapred.lib;

import org.apache.hadoop.classification.InterfaceAudience;

import org.apache.hadoop.classification.InterfaceStability;

import org.apache.hadoop.mapred.Partitioner;

import org.apache.hadoop.mapred.JobConf;

/**

* Partition keys by their {@link Object#hashCode()}.

*/

@InterfaceAudience.Public

@InterfaceStability.Stable

public class HashPartitioner<K2, V2> implements Partitioner<K2, V2> {

public void configure(JobConf job) {}

/** Use {@link Object#hashCode()} to partition. */

public int getPartition(K2 key, V2 value,

int numReduceTasks) {

return (key.hashCode() & Integer.MAX_VALUE) % numReduceTasks;

}

}

[hadoop@weekend110 ~]$ /home/hadoop/app/hadoop-2.4.1/bin/hadoop jar flowArea.jar cn.itcast.hadoop.mr.areapartition.FlowSumArea /flow/data /flow/areaoutput

以上是weekend110的mr程序中自定义分组的实现

本文转自大数据躺过的坑博客园博客，原文链接：http://www.cnblogs.com/zlslch/p/5896772.html，如需转载请自行联系原作者

文章标签：

Apache

大数据

分布式计算

Hadoop

关键词：

hadoop自定义

hadoop程序

hadoop mr

hadoop排序

hadoop分组

技术小哥哥

目录

相关文章

听风de歌

|

7月前

|

分布式计算算法 Hadoop

Hadoop数据倾斜自定义分区器

【7月更文挑战第5天】

听风de歌

50 3 3

听风de歌

|

7月前

|

分布式计算监控 Hadoop

Hadoop数据倾斜使用自定义分区器

【7月更文挑战第3天】

听风de歌

49 1 1

听风de歌

|

7月前

|

分布式计算 Hadoop 开发者

Hadoop数据倾斜自定义分区器

【7月更文挑战第1天】

听风de歌

55 1 1

听风de歌

|

8月前

|

分布式计算安全 Hadoop

Hadoop执行Balancer程序

【6月更文挑战第15天】

听风de歌

98 4 4

JavaPub

|

8月前

|

分布式计算 Hadoop Java

运行Hadoop自带的wordcount单词统计程序

运行Hadoop自带的wordcount单词统计程序

JavaPub

192 3 3

JavaPub

|

8月前

|

分布式计算 Java Hadoop

简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行

简单的java Hadoop MapReduce程序(计算平均成绩)从打包到提交及运行

JavaPub

69 0 0

这啥名啊

|

9月前

|

资源调度分布式计算 Hadoop

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

01 关于HDP 02 核心组件原理 03 资源规划 04 基础环境配置 05 Yum源配置 06 安装OracleJDK 07 安装MySQL 08 部署Ambari集群 09 安装OpenLDAP 10 创建集群 11 安装Kerberos 12 安装HDFS 13 安装Ranger 14 安装YARN+MR 15 安装HIVE 16 安装HBase 17 安装Spark2 18 安装Flink 19 安装Kafka 20 安装Flume

这啥名啊

311 0 0

Hadoop学习笔记（HDP）-Part.14 安装YARN+MR

诸葛子房

|

9月前

|

分布式计算监控 Hadoop

Hadoop MR 任务运行时日志分析

Hadoop MR 任务运行时日志分析

诸葛子房

95 0 0

赵广陆

|

分布式计算安全 Hadoop

大数据Hadoop集群运行程序

大数据Hadoop集群运行程序

赵广陆

110 1 1

豆约翰

|

存储分布式计算安全

Hadoop windows intelij 跑 MR WordCount

Hadoop windows intelij 跑 MR WordCount

豆约翰

108 1 1

热门文章

最新文章

MPP 架构与 Hadoop 架构技术选型指南

基于Java的Hadoop文件处理系统：高效分布式数据解析与存储

Flume+Hadoop：打造你的大数据处理流水线

使用Hadoop MapReduce进行大规模数据爬取

简单的hadoop启动脚本

安装hadoop集群(Multi Cluster)

Hadoop大象之旅009-通过Shell操作hdfs

TensorFlow的开源与Hadoop的开源有什么不同？

解决Eclipse中运行WordCount出现 java.lang.ClassNotFoundException: org.apache.hadoop.examples.WordCount$TokenizerMapper问题

基于Ubuntu Hadoop的群集搭建Hive

【分布式计算框架】Hadoop伪分布式安装

Hadoop配置复杂性

Hadoop生态系统集成问题

Hadoop权限问题

Hadoop安全性问题

安装hadoop学习笔记

Hadoop的HDFS问题

Hadoop防火墙问题

Hadoop网络问题

相关课程

更多

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第二阶段

大数据实战项目：反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第三阶段

大数据实战项目 - 反爬虫系统（Lua+Spark+Redis+Hadoop框架搭建）第七阶段

大数据Hadoop快速入门

Hadoop快速入门

Hadoop企业优化及扩展案例

相关电子书

更多

《构建Hadoop生态批流一体的实时数仓》

零基础实现hadoop 迁移 MaxCompute 之数据

CIO 指南:如何在SAP软件架构中使用Hadoop

相关实验场景

更多

搭建Hadoop环境

下一篇

阿里云上1分钟搞定幻兽帕鲁联机服务器搭建