从零开始学爬虫2——爬虫基础

本文涉及的产品
云解析 DNS,旗舰版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
全局流量管理 GTM,标准版 1个月
简介: 爬虫理论基础

本文为学习笔记,原教程:https://www.bilibili.com/video/BV1Db4y1m7Ho/?spm_id_from=333.999.0.0&vd_source=4cfa97d709226c94ec1c02fc78b760ec

1 什么是互联网爬虫

使用程序模拟浏览器,去向服务器发送请求,获取相应信息

2 爬虫核心

  1. 爬取网页:爬取整个网页,包含了网页中所有的内容
  2. 解析数据:将网页中得到的数据进行解析
  3. 难点:爬虫和反爬虫之间的博弈

3 爬虫用途

  • 数据分析/人工数据集
  • 社交软件冷启动
  • 舆情监控
  • 竞争对手监控

4 爬虫分类

  1. 通用爬虫:

    • 实例:百度、360、google、sougou等搜索引擎‐‐‐伯乐在线
    • 功能:访问网页‐>抓取数据‐>数据存储‐>数据处理‐>提供检索服务
    • robots协议:一个约定俗成的协议,添加robots.txt文件,来说明本网站哪些内容不可以被抓取,起不到限制作用,自己写的爬虫无需遵守
    • 网站排名(SEO)

      1. 根据pagerank算法值进行排名(参考个网站流量、点击率等指标)
      2. 百度竞价排名
    • 缺点

      1. 抓取的数据大多是无用的
      2. 不能根据用户的需求来精准获取数据
  2. 聚焦爬虫

    • 功能:根据需求,实现爬虫程序,抓取需要的数据
    • 设计思路

      1. 确定要爬取的url:如何获取Url
      2. 模拟浏览器通过http协议访问url,获取服务器返回的html代码:如何访问
      3. 解析html字符串(根据一定规则提取需要的数据):如何解析

5 反爬手段

  1. User‐Agent(UA校验):

    User Agent中文名为用户代理,简称 UA,它是一个特殊字符串头,使得服务器能够识别客户使用的操作系统及版本、CPU 类型、浏览器及版本、浏览器渲染引擎、浏览器语言、浏览器插件等。

  2. 代理IP

    西次代理

    快代理

    什么是高匿名、匿名和透明代理?它们有什么区别?

    • 使用透明代理,对方服务器可以知道你使用了代理,并且也知道你的真实IP。
    • 使用匿名代理,对方服务器可以知道你使用了代理,但不知道你的真实IP。
    • 使用高匿名代理,对方服务器不知道你使用了代理,更不知道你的真实IP。
  3. 验证码访问

    打码平台:云打码平台、超级🦅

  4. 动态加载网页 网站返回的是js数据 并不是网页的真实数据

    selenium驱动真实的浏览器发送请求

  5. 数据加密:分析js代码
目录
相关文章
|
8月前
|
数据采集 存储 前端开发
Python爬虫实战:动态网页数据抓取与分析
本文将介绍如何利用Python编写爬虫程序,实现对动态网页的数据抓取与分析。通过分析目标网站的结构和请求方式,我们可以利用Selenium等工具模拟浏览器行为,成功获取到需要的数据并进行进一步处理与展示。
|
4月前
|
数据采集 Java
爬虫系统学习
爬虫系统学习
|
7月前
|
数据采集 XML 缓存
心得经验总结:爬虫(爬虫原理与数据抓取)
心得经验总结:爬虫(爬虫原理与数据抓取)
70 0
|
数据采集 数据安全/隐私保护 索引
爬虫学习
爬虫学习
111 1
|
数据采集 Web App开发
|
数据采集 编解码 前端开发
|
数据采集 编译器 开发者
爬虫学习:XPath的使用
熟知XPath的使用来进行HTML信息锁定并获取
263 0
爬虫学习:XPath的使用
|
数据采集 JSON 监控
爬虫的简介
这无数个“网络爬虫”会在较短的时间内大量地访问 12306 网站以获得车票信息,当发现有票时,便会在极短的时间内订购车票。举个形象点的例子,这无数个“网络爬虫”便是你的分身,这些分身不知疲倦地访问 12306 网站以获得车票信息,当发现有票时,便会帮你订购车票。由上述描述我们得知,爬虫是一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。
185 0
|
数据采集 数据库 Python
Python爬虫:滤网架构处理爬虫数据
Python爬虫:滤网架构处理爬虫数据
220 0
Python爬虫:滤网架构处理爬虫数据
|
数据采集 Web App开发 存储
Python爬虫:常用的爬虫工具汇总
Python爬虫:常用的爬虫工具汇总
1542 0
Python爬虫:常用的爬虫工具汇总