离线计算-本地数据注册成表|学习笔记

简介: 快速学习离线计算-本地数据注册成表

开发者学堂课程【大数据实战项目 - 反爬虫系统(Lua+Spark+Redis+Hadoop框架搭建)第七阶段离线计算-本地数据注册成表】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址:https://developer.aliyun.com/learning/course/675/detail/11738


离线计算-本地数据注册成表


内容介绍:

一、报表模块加载

二、需求

三、代码


一、报表模块加载

目标:

实现离线指标的计算过程

二、需求

加载 kafka 数据清洗后的数据(过滤掉 html 等),加载爬虫数据,将数据注册成表


三、代码

在材料文件当中素材文件里项目代码文件有一个离线计算文件中有所有需要的离线计算代码。

打开离线数据处理的样本

计算可视化数据

数据来源时 streaming 存储到 spaksql

两个样例类,Requests 样例繁多,黑名单 BlackList 样例较少。

两个例样一个叫 request,另外一个叫 blacklist。

这个 request 里面有 matter、request、remove 时间等等,然后,request 里面资料非常之多,而我们的黑名单数据,黑名单数据实际上不多,就这么几个字代。

main 方法里面设置了日志级别,然后 SparkContext,这是 circle context 都实例,我们要用soap 把18个 circle 来进行离线计算。

然后看数据路径如果在群上面来获取的话,来配置当中,这边有个配置文件就是offline conflict,这里就是我们集群的路径,如果你的数据在集群上面,就用这种方式来进行拿取数据,我们现在就在本地拿,不在机器上拿,如果你是在集群上面,去拿就可以了。

我们直接放到本地,本地在哪呢?

就是刚刚前面那个数据预处理的这个计算整理的程序,那我们把数据放到了反爬虫素材资料包,然后这个数据样本 test 里面有个 part0000,放这里面去了,然后我这里面是调用点 map 方法把数据读过来调用点 map,然后拿这个数据数据使用井 CS 井进行拼接的,素材资料包数据,然后 test 里面有一个 party000,那来我们右键打开。

这就是我们经过改装程序改装完以后的这个数据,大家拿过来直接用就行了,或者说给你们这个离线数据,现在这个程序直接拿过来跑就可以了

但是路径要改一下,改到我们这个数据里面,数据放哪了,就调整到哪,把数据读取过来,而我们现在的数据是还是用”#cs#“拼接的,要把它拆分开,分开以后我拿到某某拆分开以后的数据,我就要用拆开以后的数据的,第1个第2个第3个也就是我这里面有很多个字段,大约这里面有接近20个字段左右。

image.png

request 是我们前面的样例,也就是说我的数据读取过了以后,拆分,完以后得到一个一个的字段,要把它和上面的样例类去进行对应,那这样,就能够将这个像的类似于数据库当作Mysql,这个有哪些字段,字段类型是什么就类似于 Mysql。

然后,数据拆分出来了和这个 request 就对应完毕以后将这个 request 注册成一张表,这张表的名字就叫 request

image.png

先做出两张表,分别为 request 和 blacklist。将他们中数据的爬虫全部读取出来。

speed 这个文本里面全都是爬虫,爬虫过来,然后再去用竖线进行分割,分割完以后我拿到了第1个数据,第2个数据,第3个数据和第4个数据,那这些数据拿到了。

就将数据处理完了,把它处理成了两张表,这就是我们从本地读数据处理成两张表的一个过程了。

相关文章
|
运维 安全 API
通义灵码知识库问答增强:知识库构建与管理指南
通义灵码能够结合企业知识库的私域数据,生成贴合企业特点的回答。充分发挥检索增强技术的优势,构建高质量的企业知识数据以及合理的知识库权限管理是必不可少的。本文将为您详细介绍如何构造与管理一个高质量的企业知识库。
通义灵码知识库问答增强:知识库构建与管理指南
|
SQL Oracle 关系型数据库
Entity Framework Core 实现多数据库支持超厉害!配置连接、迁移与事务,开启多元数据库之旅!
【8月更文挑战第31天】在现代软件开发中,为了满足不同业务需求及环境要求,常需支持多个数据库系统。Entity Framework Core(EF Core)作为一款强大的对象关系映射(ORM)框架,通过数据库提供程序与多种数据库如SQL Server、MySQL、PostgreSQL、Oracle等交互。开发者可通过安装相应NuGet包并配置`DbContextOptionsBuilder`来指定不同数据库连接,从而实现多数据库支持。
1513 0
|
XML SQL Java
Java中mybatis的Mpper代理开发的详细使用步骤
mybatis使用Mapper代理开发会更加的方便,一般推荐这样的方式,形式和mapper常规使用也差不多
251 0
Java中mybatis的Mpper代理开发的详细使用步骤
|
4天前
|
数据采集 人工智能 安全
|
13天前
|
云安全 监控 安全
|
5天前
|
自然语言处理 API
万相 Wan2.6 全新升级发布!人人都能当导演的时代来了
通义万相2.6全新升级,支持文生图、图生视频、文生视频,打造电影级创作体验。智能分镜、角色扮演、音画同步,让创意一键成片,大众也能轻松制作高质量短视频。
1091 152
|
18天前
|
机器学习/深度学习 人工智能 自然语言处理
Z-Image:冲击体验上限的下一代图像生成模型
通义实验室推出全新文生图模型Z-Image,以6B参数实现“快、稳、轻、准”突破。Turbo版本仅需8步亚秒级生成,支持16GB显存设备,中英双语理解与文字渲染尤为出色,真实感和美学表现媲美国际顶尖模型,被誉为“最值得关注的开源生图模型之一”。
1765 9
|
10天前
|
人工智能 自然语言处理 API
一句话生成拓扑图!AI+Draw.io 封神开源组合,工具让你的效率爆炸
一句话生成拓扑图!next-ai-draw-io 结合 AI 与 Draw.io,通过自然语言秒出架构图,支持私有部署、免费大模型接口,彻底解放生产力,绘图效率直接爆炸。
697 152