预处理及识别代码架构介绍|学习笔记

简介: 快速学习预处理及识别代码架构介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建):预处理及识别代码架构介绍】学习笔记与课程紧密联系,让用户快速学习知识

课程地址:https://developer.aliyun.com/learning/course/670/detail/11630


数据预处理-预处理程序入口优化

 

数据预处理-预处理程序入口优化

1、数据预处理程序的主程序

object DataProcessLauncher {

//程序主入口

def main(args: Array[String]): Unit ={

//添加日志级别设置

LoggerLevels.setStreamingLogLevels()

//当应用停止的时候,进行如下设置可以保证当批次执行之后再停止应用。

System.setProperty("spark.streaming.stopGracefullyOnShutdown","true")

//1创建 Spark conf

valconf=newSparkConf().setAppName

("DataProcess").setMaster(local[2])

//开启日志监控功能

.set("spark.metrics.conf.executor.source.jvm.class",

org.apache.spark.metrics.source.JvmSource")//开启集群监控功能

//2、创建SparkContext

val sc=new SparkContext(conf)

//3、创建streaming Context

val ssc=new StreamingContext(sc,Seconds(2))

//4、读取kafka 内的数据ssc,kafkaParams,topics)

//jssc: JavaStreamingContext,

//kafkaParams: JMap[String, String],

//topics: JSet[String]

valkafkaParams=Map("bootstrap.servers

"->PropertiesUtil.getstringBykey(key="default.brokers,propName = "kafkaConfig.properties"))

valtopics=Set(PropertiesUtil.getStringByKey(key=source.nginx.topic,propName=kafkaConfig.properties))

//接收kafka 的数据(key,value)

KafkaUtils.createDirectStream[String,String,

StringDecoder,StringDecoder](ssc,kafkaParams,topics)

//真正的数据

val kafkaValue=kafkaData.map(_._2)

//5、消费数据

kafkaValue.foreachRDD(rdd=>rdd.foreach(println))

//数据预处理的程序

Val ssc=setupSsc(sc,kafkaParams,topics)

//6、开启 streaming 任务+开启循环

ssc.start()

ssc.awaitTermination()

}

}

2、数据预处理的程序

defsetupSsc(ssc:SparkContext,kafkaParams:Map[String, String], topics: set[String]):StreamingContext = {

//3、创建 streaming Context

val ssc=new StreamingContext(sc,Seconds(2))

//4、读取kafka 内的数据ssc,kafkaParams,topics)

//jssc: JavaStreamingContext,

//kafkaParams: JMap[String, String],

//topics: JSet[String]

valkafkaParams=Map("bootstrap.servers

"->PropertiesUtil.getstringBykey(key="default.brokers,propName = "kafkaConfig.properties"))

valtopics=Set(PropertiesUtil.getStringByKey(key

=source.nginx.topic,propName=kafkaConfig.properties))

//接收kafka 的数据(key,value)

KafkaUtils.createDirectStream[String,String,StringDecoder,StringDecoder](ssc,kafkaParams,topics)

//真正的数据

val kafkaValue=kafkaData.map(_._2)

//5、消费数据

kafkaValue.foreachRDD(rdd=>rdd.foreach(println))

Ssc

}

将以上代码进行运行。

相关文章
|
3月前
|
SQL 前端开发 关系型数据库
如何开发一套研发项目管理系统?(附架构图+流程图+代码参考)
研发项目管理系统助力企业实现需求、缺陷与变更的全流程管理,支持看板可视化、数据化决策与成本优化。系统以MVP模式快速上线,核心功能包括需求看板、缺陷闭环、自动日报及关键指标分析,助力中小企业提升交付效率与协作质量。
|
3月前
|
JSON 文字识别 BI
如何开发车辆管理系统中的加油管理板块(附架构图+流程图+代码参考)
本文针对中小企业在车辆加油管理中常见的单据混乱、油卡管理困难、对账困难等问题,提出了一套完整的系统化解决方案。内容涵盖车辆管理系统(VMS)的核心功能、加油管理模块的设计要点、数据库模型、系统架构、关键业务流程、API设计与实现示例、前端展示参考(React + Antd)、开发技巧与工程化建议等。通过构建加油管理系统,企业可实现燃油费用的透明化、自动化对账、异常检测与数据分析,从而降低运营成本、提升管理效率。适合希望通过技术手段优化车辆管理的企业技术人员与管理者参考。
|
3月前
|
消息中间件 缓存 JavaScript
如何开发ERP(离散制造-MTO)系统中的生产管理板块(附架构图+流程图+代码参考)
本文详解离散制造MTO模式下的ERP生产管理模块,涵盖核心问题、系统架构、关键流程、开发技巧及数据库设计,助力企业打通计划与执行“最后一公里”,提升交付率、降低库存与浪费。
|
2月前
|
前端开发 JavaScript BI
如何开发车辆管理系统中的车务管理板块(附架构图+流程图+代码参考)
本文介绍了中小企业如何通过车务管理模块提升车辆管理效率。许多企业在管理车辆时仍依赖人工流程,导致违章处理延误、年检过期、维修费用虚高等问题频发。将这些流程数字化,可显著降低合规风险、提升维修追溯性、优化调度与资产利用率。文章详细介绍了车务管理模块的功能清单、数据模型、系统架构、API与前端设计、开发技巧与落地建议,以及实现效果与验收标准。同时提供了数据库建表SQL、后端Node.js/TypeScript代码示例与前端React表单设计参考,帮助企业快速搭建并上线系统,实现合规与成本控制的双重优化。
|
3月前
|
机器学习/深度学习 人工智能 搜索推荐
从零构建短视频推荐系统:双塔算法架构解析与代码实现
短视频推荐看似“读心”,实则依赖双塔推荐系统:用户塔与物品塔分别将行为与内容编码为向量,通过相似度匹配实现精准推送。本文解析其架构原理、技术实现与工程挑战,揭秘抖音等平台如何用AI抓住你的注意力。
850 7
从零构建短视频推荐系统:双塔算法架构解析与代码实现
|
3月前
|
监控 供应链 前端开发
如何开发ERP(离散制造-MTO)系统中的财务管理板块(附架构图+流程图+代码参考)
本文详解离散制造MTO企业ERP系统中财务管理模块的搭建,聚焦应收账款与应付账款管理,涵盖核心功能、业务流程、开发技巧及Python代码示例,助力企业实现财务数据准确、实时可控,提升现金流管理能力。
|
3月前
|
供应链 监控 JavaScript
如何开发ERP(离散制造-MTO)系统中的库存管理板块(附架构图+流程图+代码参考)
本文详解MTO模式下ERP库存管理的关键作用,涵盖核心模块、业务流程、开发技巧与代码示例,助力制造企业提升库存周转率、降低缺货风险,实现高效精准的库存管控。
|
3月前
|
前端开发 API 定位技术
如何开发车辆管理系统中的用车申请板块(附架构图+流程图+代码参考)
本文详细解析了如何将传统纸质车辆管理流程数字化,涵盖业务规则、审批流、调度决策及数据留痕等核心环节。内容包括用车申请模块的价值定位、系统架构设计、数据模型构建、前端表单实现及后端开发技巧,助力企业打造可落地、易扩展的车辆管理系统。
|
3月前
|
设计模式 人工智能 API
AI智能体开发实战:17种核心架构模式详解与Python代码实现
本文系统解析17种智能体架构设计模式,涵盖多智能体协作、思维树、反思优化与工具调用等核心范式,结合LangChain与LangGraph实现代码工作流,并通过真实案例验证效果,助力构建高效AI系统。
514 7
|
3月前
|
消息中间件 JavaScript BI
如何开发ERP(离散制造-MTO)系统中的客户管理板块(附架构图+流程图+代码参考)
本文详解离散制造-MTO模式下ERP系统客户管理模块的设计与实现,涵盖架构图、流程图、功能拆解、开发技巧及TypeScript参考代码,助力企业打通客户信息与报价、生产、交付全链路,提升响应效率与订单准交率。