数据预处理流程详解|学习笔记

简介: 快速学习数据预处理流程详解

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段数据预处理流程详解】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11593


数据预处理流程详解

 

内容介绍:

一、数据采集

二、数据采集阶段要实现的过程

目标:详细了解数据采集的全部过程

 

一、 数据采集

1.流程

官网反爬虫系统的数据采集模块采用 lua+nginx+kafka 架构,通过 lua 脚本将官网的 http 请求数据获取之后,进行数据条数统计和日志记录,之后写入到  kafka  生成端,给 sparkstreaming 进行消费并清洗。

图片1.png

二、 数据采集阶段要实现的过程

 图片2.png

1、使用 openresty 搭建官方网站

此时需要有一台服务器部署企业的外部端,所以需要通过 openresty 搭建官方网站,该官网是 nginx 部署。

nginx

(1) nginx.com 模拟多个 url (正常访问的 url 、js 的 url 、css 的 url)

(2)在 nginx.conf 中还要写一个引入 lua 脚本的操作(nginx.conf 和 lua 进行集成)

2、lua 脚本(目的是采集 requset 数据)

1)读取 request 数据进行封装,然后创建 producer 写到 fafka

(2) 条数统计:跟随 request 一起封装,传到 kafka

3、数据源

(1)浏览器:可以通过浏览器模拟真实用户(在浏览器中刷新界面,将数据传入 kafla 中)

(2)爬虫:写爬虫程序,生产测试数据(正常访问的 url、js 的 url、css 的 url)

4、测试数据是否成功

(1)写一个 kafka 的消费者,消费数据看生产步骤是否成功

相关文章
【Elastic知识简报】: kibana如何开启中文
我们在使用kibana,特别是在设置数据看板时如果英文水平不足,常常会有无法准确设置图形、指标的问题,那么如何将kibana设置为中文界面呢
1941 0
【Elastic知识简报】: kibana如何开启中文
|
5月前
|
人工智能 运维 监控
基于MCP的一体化AI管线:从模型训练到部署监控的全链路解析
本文介绍基于MCP(模型控制流水线)的一体化AI部署架构,涵盖从模型训练、自动部署、实时推理到性能监控的完整闭环系统设计,并结合工业制造、能源、IoT等场景,提供代码实现与落地案例,助力企业实现AI自动化运维与智能化升级。
基于MCP的一体化AI管线:从模型训练到部署监控的全链路解析
|
SQL 安全 测试技术
安全测试----使用Docker搭建SQL注入安全测试平台sqli-labs
安全测试----使用Docker搭建SQL注入安全测试平台sqli-labs
1111 0
安全测试----使用Docker搭建SQL注入安全测试平台sqli-labs
|
存储 缓存 NoSQL
redis缓存优化
采用获取一次缓存,如果为空的情况,获取分布式锁,让一个线程去重建缓存,另外的线程未获取到锁的情况,休眠短时间,然后再自旋获取缓存。
235 0
|
人工智能 运维 监控
超越传统网络防护,下一代防火墙安全策略解读
超越传统网络防护,下一代防火墙安全策略解读
397 6
|
机器学习/深度学习 监控 PyTorch
PyTorch 模型调试与故障排除指南
在深度学习领域,PyTorch 成为开发和训练神经网络的主要框架之一。本文为 PyTorch 开发者提供全面的调试指南,涵盖从基础概念到高级技术的内容。目标读者包括初学者、中级开发者和高级工程师。本文探讨常见问题及解决方案,帮助读者理解 PyTorch 的核心概念、掌握调试策略、识别性能瓶颈,并通过实际案例获得实践经验。无论是在构建简单神经网络还是复杂模型,本文都将提供宝贵的洞察和实用技巧,帮助开发者更高效地开发和优化 PyTorch 模型。
285 3
PyTorch 模型调试与故障排除指南
|
人工智能 程序员
专业程序员进阶之路:从需求出发
在软件开发中,需求管理是关键,尤其对程序员的成长至关重要。文章以AI智能回收机项目为例,揭示了混乱、不清晰的需求如何阻碍项目进展。需求是设计的基础,没有正确需求意味着设计错误。程序员往往无形中承担了部分需求分析工作,需学会从用户角度理解和控制需求。需求过程包括问题定义和需求分析,前者清晰陈述问题,后者侧重业务而非技术。正确接收需求需深入业务、挖掘本源、全面考虑需求关系。通过学习和实践,程序员能提升需求管理能力,进而专业进阶。
407 1
|
Java 关系型数据库 MySQL
百度搜索:蓝易云【Linux系统DolphinScheduler3.1.5安装部署教程。】
如果在安装过程中遇到任何问题,请参考官方文档或咨询 DolphinScheduler 的技术支持,以获取更详细的帮助和指导。
315 0
|
弹性计算 应用服务中间件 Linux
双剑合璧:在同一ECS服务器上共存Apache与Nginx的实战攻略
在ECS服务器上同时部署Apache和Nginx的实战:安装更新系统,Ubuntu用`sudo apt install apache2 nginx`,CentOS用`sudo yum install httpd nginx`。配置Nginx作为反向代理,处理静态内容及转发动态请求到Apache(监听8080端口)。调整Apache的`ports.conf`监听8080。重启服务测试,实现两者高效协同,提升Web服务性能。记得根据流量和需求优化配置。【6月更文挑战第21天】
1312 1