JAVA Spark rdd使用Spark编程实现:统计出每个省份广 告被点击次数的TOP3

简介: JAVA Spark rdd使用Spark编程实现:统计出每个省份广 告被点击次数的TOP3

假设这些信息都存存储在一个文件里

时间数 省份 城市 用户 广告

如下所示:


5.1.png


(中间字段使用空格隔开)

import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.mllib.recommendation.Rating;
import com.clearspring.analytics.util.Lists;
import scala.Tuple2;
public class test4 {
  public static void main(String[] args) {
  // TODO Auto-generated method stub
  SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(sparkConf);
    JavaRDD<String> filedata=sc.textFile("file:///home/gyq/eclipse-workspace/ALS/PeopleInfo.txt");
    JavaRDD<String> data1=filedata.flatMap(f->Arrays.asList(f.split(" ")[1]).iterator());
    JavaRDD<String> data2=filedata.flatMap(f->Arrays.asList(f.split(" ")[2]).iterator());
    JavaPairRDD<Tuple2<String,String>,Integer> PAdata=filedata.mapToPair(s->{
      return new Tuple2<Tuple2<String,String>,Integer>(
    new Tuple2<String,String>(s.split(" ")[1],s.split(" ")[4]),1);
      });
    JavaPairRDD<Tuple2<String,String>,Integer> ggs=PAdata.reduceByKey((x,y)->x+y);
   // ggs.foreach(f->System.out.println("(省份,"+ "广告),点击数"+f));//
    JavaRDD<String> gss1=ggs.map(f->{return f._1._1+"-"+f._1._2+"-"+f._2();});
    //gss1.foreach(f->System.out.println("(省份,"+ "广告),点击数"+f));
    JavaRDD<String> gss2=gss1.sortBy(f->{return Integer.valueOf(f.split("-")[2]);}, false,1);
    JavaPairRDD<Integer,String> gss3=gss2.mapToPair(f->
    {return new Tuple2<Integer,String>(Integer.valueOf(f.split("-")[0]),f.split("-")[1]+"-"+f.split("-")[2]);});
   JavaPairRDD<Integer, Iterable<String>> gss4=gss3.groupByKey();
   JavaPairRDD<Integer, Iterable<String>> gss5=
    gss4.mapValues(f->{
    List<String> ls=Lists.newArrayList(f);
    String bb;
    List<String> top3=new ArrayList<>();
    for(int i=0;i<3;i++) {
      bb=ls.get(i);
      top3.add(bb);
    }
    return top3;
    });
  JavaPairRDD<Integer, Iterable<String>> gss6=gss5.sortByKey();
    gss6.foreach(f->System.out.println(f));
}
}


答案如下:

5.2.png

或者这样也能出答案

package thisterm;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.List;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaPairRDD;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import org.apache.spark.mllib.recommendation.Rating;
import com.clearspring.analytics.util.Lists;
import scala.Tuple2;
public class test4 {
  public static void main(String[] args) {
  // TODO Auto-generated method stub
  SparkConf sparkConf = new SparkConf().setAppName("PeopleInfoCalculator").setMaster("local");
    JavaSparkContext sc = new JavaSparkContext(sparkConf);
    JavaRDD<String> filedata=sc.textFile("file:///home/gyq/eclipse-workspace/ALS/PeopleInfo.txt");
    JavaRDD<String> data1=filedata.flatMap(f->Arrays.asList(f.split(" ")[1]).iterator());
    JavaRDD<String> data2=filedata.flatMap(f->Arrays.asList(f.split(" ")[2]).iterator());
    JavaPairRDD<Tuple2<String,String>,Integer> PAdata=filedata.mapToPair(s->{
      return new Tuple2<Tuple2<String,String>,Integer>(
    new Tuple2<String,String>(s.split(" ")[1],s.split(" ")[4]),1);
      });
    JavaPairRDD<Tuple2<String,String>,Integer> ggs=PAdata.reduceByKey((x,y)->x+y);
   // ggs.foreach(f->System.out.println("(省份,"+ "广告),点击数"+f));//
    JavaRDD<String> gss1=ggs.map(f->{return f._1._1+"-"+f._1._2+"-"+f._2();});
    //gss1.foreach(f->System.out.println("(省份,"+ "广告),点击数"+f));
    JavaRDD<String> gss2=gss1.sortBy(f->{return Integer.valueOf(f.split("-")[2]);}, false,1);
    JavaPairRDD<Integer,String> gss3=gss2.mapToPair(f->
    {return new Tuple2<Integer,String>(Integer.valueOf(f.split("-")[0]),f.split("-")[1]+"-"+f.split("-")[2]);});
   JavaPairRDD<Integer, Iterable<String>> gss4=gss3.groupByKey();
   JavaPairRDD<Integer,String> prdd3=gss3.reduceByKey((a,b)->{
    if(a.split(";").length<3) {
     return a+";"+b;
    }else {
     return a;
    }
   });
   prdd3.foreach(f->System.err.println(f));
 // JavaPairRDD<Integer, Iterable<String>> gss6=gss5.sortByKey();
    //gss6.foreach(f->System.out.println(f));
}
}
相关文章
|
10月前
|
Java API 微服务
为什么虚拟线程将改变Java并发编程?
为什么虚拟线程将改变Java并发编程?
447 83
|
7月前
|
Java
如何在Java中进行多线程编程
Java多线程编程常用方式包括:继承Thread类、实现Runnable接口、Callable接口(可返回结果)及使用线程池。推荐线程池以提升性能,避免频繁创建线程。结合同步与通信机制,可有效管理并发任务。
297 6
|
7月前
|
IDE Java 编译器
java编程最基础学习
Java入门需掌握:环境搭建、基础语法、面向对象、数组集合与异常处理。通过实践编写简单程序,逐步深入学习,打牢编程基础。
407 1
|
8月前
|
SQL Java 数据库
2025 年 Java 从零基础小白到编程高手的详细学习路线攻略
2025年Java学习路线涵盖基础语法、面向对象、数据库、JavaWeb、Spring全家桶、分布式、云原生与高并发技术,结合实战项目与源码分析,助力零基础学员系统掌握Java开发技能,从入门到精通,全面提升竞争力,顺利进阶编程高手。
1279 2
|
7月前
|
安全 前端开发 Java
从反射到方法句柄:深入探索Java动态编程的终极解决方案
从反射到方法句柄,Java 动态编程不断演进。方法句柄以强类型、低开销、易优化的特性,解决反射性能差、类型弱、安全性低等问题,结合 `invokedynamic` 成为支撑 Lambda 与动态语言的终极方案。
307 0
|
9月前
|
安全 Java 数据库连接
2025 年最新 Java 学习路线图含实操指南助你高效入门 Java 编程掌握核心技能
2025年最新Java学习路线图,涵盖基础环境搭建、核心特性(如密封类、虚拟线程)、模块化开发、响应式编程、主流框架(Spring Boot 3、Spring Security 6)、数据库操作(JPA + Hibernate 6)及微服务实战,助你掌握企业级开发技能。
1120 3
|
8月前
|
Java 开发者
Java并发编程:CountDownLatch实战解析
Java并发编程:CountDownLatch实战解析
587 100
|
8月前
|
算法 Java
Java多线程编程:实现线程间数据共享机制
以上就是Java中几种主要处理多线程序列化资源以及协调各自独立运行但需相互配合以完成任务threads 的技术手段与策略。正确应用上述技术将大大增强你程序稳定性与效率同时也降低bug出现率因此深刻理解每项技术背后理论至关重要.
537 16
|
8月前
|
NoSQL Java 关系型数据库
超全 Java 学习路线,帮你系统掌握编程的超详细 Java 学习路线
本文为超全Java学习路线,涵盖基础语法、面向对象编程、数据结构与算法、多线程、JVM原理、主流框架(如Spring Boot)、数据库(MySQL、Redis)及项目实战等内容,助力从零基础到企业级开发高手的进阶之路。
572 1

热门文章

最新文章