离线计算-数据改装程序|学习笔记

简介: 快速学习离线计算-数据改装程序

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段离线计算-数据改装程序】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11737


离线计算-数据改装程序


内容简介:

一、设置任务监控

二、测试数据的改装


一、设置任务监控

爬虫识别阶段的监控

离线分析的数据已经有了,但是支撑不了离线分析。所以需要对数据进行改装

(1)、需求

对当前 streaming 任务设置任务监控

(2)、代码

黄色部分为任务监控代码及:SparkStreamingMonitor.queryMonitor(sc,message)

注意下面这段黄色代码,此为集群获取代码:

//                  val              sparkDriverHost       =Sc.getConf.get(‘spark.org.apache.hadoop.yam.server.webproxy.amfilter.AmlpFilter.paramPROXY-URI-BAES”)

//监控信息页面路径+/proxy/+应用id+/metrics/json

//val url=s”${sparkDriverHost}/metrics/json”

设置任务监控使用代码:SparkStreamingMonitor(sc,message),打开代码以后,将下方黄色代码粘贴带入到 Monitor。我们现在使用的时本地计算,本地的


二、测试数据的改装

(1)、需求

在我们使用产生的真实测试文件中,并不包含我们离线分析的很多指标,如:国际查询,普通用户查询等,我们可以通过下面的程序将我们通过lua生成的测试数据进行一次改装,变成共离线统计使用的数据。

下面我们只提供改装测试数据的代码,规则比较简单,我们采取抽样修改数据,以满足我们图形显示的需求。

当然,在真实数据的情况下,会和我们改装后的数据类似,但是数据的形式可能会更离散化,而不是像我们改装的那么规律。

(2)、代码

代码在哪里跑?

在材料文件当中素材文件里项目代码文件有一个离线计算文件中有所有需要的离线计算代码

image.png

Data 里面的方面就是数据改装

素材文件里的样本文件中有我们需要的样本

①数据预处理,根据不同的行号条件,将数据进行相应的处理,如下面这段代码

val request=sc.textFile(path=”F:\\反爬虫项目\\素材\\资料包\\数据样本\\part-0000”)

.map(x=>{

var y=x

if(i%50==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/ita/int1/zh/shop/csair”)

}

if(i%201==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/modules/permissionnew/csair”).replace(

}

if(i%701==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/modules/permissionnew/csair”)

}

if(i%1001==0){y=y.replace(target=”/B2C40/query/jaxb/direct/query.ad”,replacement=”/upp_payment/pay/csair”)

}

if(i%2001==0){

y=y.replace(target=”192.168.56.1”,replacement=”243.234.12.43”)

}

If(i%200==0||i%402==0||i%2002==0||i%502==0){

Y=y.replace(target=”National”,replacement=”Internatinal”)

处理好的数据进入 test,处理好的数据进行离线数据计算

相关文章
|
11天前
|
传感器 存储 人工智能
构建AI智能体:五十一、深思熟虑智能体:从BDI架构到认知推理的完整流程体系
本文系统介绍了深思熟虑智能体(Deliberative Agent)及其核心BDI架构。智能体通过信念(Beliefs)、愿望(Desires)、意图(Intentions)三个核心组件实现复杂决策:信念系统维护环境认知,愿望系统管理目标设定,意图系统执行行动计划。文章详细阐述了智能体的状态管理、推理机制和完整决策流程,并通过一个学术研究助手的设计示例,展示了如何实现从环境感知、计划制定到执行反思的完整认知循环。这种架构使智能体能够进行深度思考、规划和学习,而非简单反应式响应,代表了人工智能从工具性向认知性
125 5
|
15天前
|
人工智能 自然语言处理 算法
2025年AI 搜索优化(GEO)行业年度盘点:从资本爆发到入场公司初步分化
2025年,AI搜索优化(GEO)爆发式增长,取代传统SEO成营销新焦点。受全球资本热捧,中国市场规模突破480亿元,即搜AI与边鱼科技领跑,分别布局全域搜索与中小微企业服务。技术与商业闭环加速构建,行业迈向可持续价值竞争。
|
缓存 运维 NoSQL
Redis 集群化部署实战:打造高可用、可扩展的缓存系统
本文详细介绍Redis集群化部署方案,涵盖架构设计、环境准备、配置优化、Docker部署、集群管理、监控运维及故障处理,助你构建高可用、可扩展的分布式缓存系统。
263 2
|
2月前
|
缓存 Ubuntu 安全
如何在Ubuntu中移除Snap包管理器
以上步骤涉及系统深层次的操作,可能会对系统稳定性和安全性产生影响。在执行这些操作之前,请确保您了解每个步骤的具体含义,并考虑所有潜在的风险。此外,这些步骤可能会随着Ubuntu系统的更新而变化,请根据您的具体系统版本进行调整。
438 17
|
2月前
|
机器学习/深度学习 存储 并行计算
大模型推理加速技术:FlashAttention原理与实现
本文深入解析大语言模型推理加速的核心技术——FlashAttention。通过分析传统注意力机制的计算瓶颈,详细阐述FlashAttention的IO感知算法设计、前向反向传播实现,以及其在GPU内存层次结构中的优化策略。文章包含完整的CUDA实现示例、性能基准测试和实际部署指南,为开发者提供高效注意力计算的全套解决方案。
394 10
|
5月前
|
存储 机器学习/深度学习 人工智能
还在为释放医疗数据潜能,驱动智慧医联体升级 ——AI赋能的病历全流程智能管理解决方案
AI赋能病历管理,破解录入低效、存储难、数据沉睡等痛点。实现病历数字化、结构化、智能化,降本增效,助力医院智慧升级。
213 0
|
人工智能 算法 安全
【开源社区】openEuler、openGauss、openHiTLS、MindSpore
【开源社区】openEuler、openGauss、openHiTLS、MindSpore
523 1
|
SQL 中间件 FESCAR
分布式事务中间件 Fescar—RM 模块源码解读
前言 在SOA、微服务架构流行的年代,许多复杂业务上需要支持多资源占用场景,而在分布式系统中因为某个资源不足而导致其它资源占用回滚的系统设计一直是个难点。我所在的团队也遇到了这个问题,为解决这个问题上,团队采用的是阿里开源的分布式中间件Fescar的解决方案,并详细了解了Fescar内部的工作原理,解决在使用Fescar中间件过程中的一些疑虑的地方,也为后续团队在继续使用该中间件奠定理论基础。
27988 171
|
存储 Prometheus 监控
我们不用Prometheus了?
我们不用Prometheus了?
我们不用Prometheus了?