项目背景介绍|学习笔记

简介: 快速学习项目背景介绍

开发者学堂课程【大数据实战项目:反爬虫系统(Lua+Spark+Redis+Hadoop 框架搭建)第一阶段项目背景介绍】学习笔记,与课程紧密联系,让用户快速学习知识。  

课程地址:https://developer.aliyun.com/learning/course/669/detail/11580


项目背景介绍

 

课程计划:

1、介绍项目背景

2、项目总体概述

3、项目功能描述

4、项目架构

5、防爬规则

6、数据采集模块 -openresty 安装

7、lua 语法入门

8、openresty 案例入门

 

1、介绍项目背景

假设一个场景,国家规定的长假如春节、国庆,小长假如元旦,国庆安排准备去三亚旅游,飞机票,火车票等供不应求,便面临一种情况,即去三亚却没有票,这种情况下,即使换往其他地区游玩,可能会面临同种情况,我们通常会选择到特殊渠道进行购票,如黄牛等等,这就又面临一个问题,这类平台会赚取一定的差价。

黄牛有票的很大原因是通过爬取票务的手段不断的进行爬取票务,一般情况有人退票,黄牛会立刻占取该票务,通过提高票务来赚取差价。这种不断刷取票务的功能属于爬虫的一种。

很多订票网站在互联网提供查询、预订等服务,如:各种航空公司的官网、去哪网、携程等,有大量正常用户访问的同时,也存在大量爬虫。爬虫消耗了系统资源,但是却没有转化成销量,导致系统资源虚耗,严重时会造成系统波动,影响正常用户访问购票。

大量热门路线的好车次和航线的特价舱位吸引正常用户通过官网订票的同时,也存在大量恶意占座的非法代理(黄牛)。通过不断的订座但不支付,利用这些虚占的座位进行非法盈利,通过系统日志分析等,发现官网存在大量的非法占座会员及非会员手机号用户。

为了限制伪装技术越来越强的爬虫访问和恶意占座行为,需要开发大数据防爬工具。

知识点1:项目背景

目标:了解爬虫项目的背景

各大售票网网站对外提供了购票,查票门户的同时,也吸引了大量的爬虫用户,爬虫会造成企业内的服务器负载较高,但是转化率极低,企业为了解决这个问题,需要一个反爬虫系统,进行爬虫的识别最终屏蔽爬虫。

相关文章
|
10月前
|
Python
Numpy中的矩阵运算
通过本文的详细讲解,您已经掌握了NumPy中的矩阵运算,包括基础数组创建、基本运算、矩阵乘法、逆、行列式以及广播机制等。NumPy是进行科学计算的重要工具,灵活运用它将大大提升您的工作效率。
278 13
|
传感器 智能硬件
未来家居:智能窗帘的设计与实现
【5月更文挑战第31天】本文将探讨智能窗帘的设计和实现,包括其工作原理、主要组件以及如何通过智能家居系统进行控制。我们将详细介绍智能窗帘的硬件和软件设计,以及如何将其集成到现有的智能家居系统中。
|
网络协议 应用服务中间件 网络安全
odoo17在线聊天报错提示 Couldn‘t bind the websocket...
当 Odoo 17 报错 "Couldn't bind the websocket..." 时,通过检查和配置 WebSocket 端口、防火墙规则、代理服务器以及 Odoo 配置文件,可以有效解决此问题。确保每一步操作准确无误,最终重启相关服务,使配置生效。希望这些步骤能帮助您快速恢复 Odoo 的在线聊天功能。
440 1
|
机器学习/深度学习 人工智能 自然语言处理
深度学习在自然语言处理中的突破与未来趋势####
本文深入探讨了深度学习技术在自然语言处理(NLP)领域的最新进展,重点介绍了其在语言理解、生成及翻译等方面的革新应用。通过对比传统方法的局限性,展示了深度学习如何以其强大的特征提取和学习能力重塑NLP领域。文章还分析了当前面临的挑战,如模型泛化能力、解释性问题及资源消耗等,并展望了未来发展趋势,包括多模态学习、持续学习机制以及更加公平和可解释的AI模型设计。本文旨在为读者提供一个全面而深入的视角,理解深度学习在推动NLP发展的核心作用及其未来的无限可能。 ####
|
运维 监控 调度
ERP系统中的生产计划与调度
【7月更文挑战第25天】 ERP系统中的生产计划与调度
746 2
|
SQL 算法 Java
MyBatis-Plus详解(3)
MyBatis-Plus详解(3)
254 0
|
机器学习/深度学习 分布式计算 并行计算
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
MapReduce是一种用于并行计算的编程模型和处理大规模数据集的实现
265 0
|
机器学习/深度学习 存储 人工智能
人工智能基础:人工智能云服务(Alaas)介绍
人工智能云服务(AI as a Service )是目前主流的人工智能平台的服务方式,它会把几个常见的人工智能服务进行准确划分,并通过云端提供单独或者打包的服务。模式类似于WordPress中的博客有很多在线的插件,用户可以根据自己的需要免费或者付费的方式下载并安装自己需要的博客插件。国内常见的案例有阿里云、华为云、腾讯云、百度云都有自己的人工智能服务平台。
人工智能基础:人工智能云服务(Alaas)介绍
|
传感器 存储 数据采集
iNeuOS工业互联网平台,在高校教学实训领域的应用
中国工业互联网从 0 向 1 演进从缺政策、缺技术、缺市场,逐渐转移到了缺人才,跨行业、跨领域的复合型人才;IT与OT融合型人才;了解工业、了解数据分析、了解工业机理的复合型人才;既懂工业运营需求、又懂网络信息技术、有较强创新能力和操作能力的复合型人才;既有专业领域的知识、又懂得大数据、人工智能新算法的人才;懂工业和新兴技术的跨界人才等。
598 0
iNeuOS工业互联网平台,在高校教学实训领域的应用
|
弹性计算 编解码 安全
阿里云ECS配置远程桌面
通过阿里云开发者成长计划学生专享申请到阿里云ECS云服务器,利用云服务器的特性以及公网IP,借助frp进行内网穿透,使外网通过访问公有IP或域名,就可访问内网中的计算机,解决了个人计算机没有公网IP或申请困难的缺陷,再借助RD client或其他应用实现远程桌面效果。本文主要讲述了如何设置frp服务端和客户端设置,服务端为申请到的ECS,系统为ubuntu_18_04_x64,客户端为远程桌面被控端,系统为Windows10专业版,讲解了各个配置文件的设置,以及阿里云ECS安全组的设置,开放对应端口。