xpath 获取元素及爬虫实例

本文涉及的产品
全局流量管理 GTM,标准版 1个月
公共DNS(含HTTPDNS解析),每月1000万次HTTP解析
云解析 DNS,旗舰版 1个月
简介: 主流爬虫方法分类:1,selenium+Chrome/PhantomJS2,Requests+正则表达式3,Requests+ BeautifulSoup4,Requests+分析ajax5,Requests+xpath(lxml包)或CSS今天要讲的第5种。

主流爬虫方法分类:
1,selenium+Chrome/PhantomJS
2,Requests+正则表达式
3,Requests+ BeautifulSoup
4,Requests+分析ajax
5,Requests+xpath(lxml包)或CSS
今天要讲的第5种。

  1. 原理:将有可能不合法的HTML 解析为统一格式。 虽然Lxml可以正确解析属性两侧缺失的引号,并闭合标签,不过该模块没有额外添加<
    html >和<body>标签 。CSS其实和lxml在内部实现相似,实际上是将CSS选择器转换为等价的Xpath选择器。
  2. 速度:Lxml模块使用 C语言编写,所以速度和re正则一样,非常快。
  3. 场景:大部分的页面解析和内容抓取。涉及到js和ajax的需要先加载js、ajax请求,再对页面进行解析和xpath定位抓取。
  4. 依赖库:lxml from lxml import etree
  5. 基本用法:Selector = etree.HTML(网页源代码)

      Selector.xpath(一段神奇的符号)
  6. xapth表达式:
    image

7,xpath推荐学习链接:
https://www.cnblogs.com/lei0213/p/7506130.html

xpath定位方法:
image
(源码见附件)

目录
相关文章
|
数据采集 JSON API
C#网络爬虫实例:使用RestSharp获取Reddit首页的JSON数据并解析
C#网络爬虫实例:使用RestSharp获取Reddit首页的JSON数据并解析
|
12天前
|
XML 数据采集 数据格式
Python 爬虫必备杀器,xpath 解析 HTML
【11月更文挑战第17天】XPath 是一种用于在 XML 和 HTML 文档中定位节点的语言,通过路径表达式选取节点或节点集。它不仅适用于 XML,也广泛应用于 HTML 解析。基本语法包括标签名、属性、层级关系等的选择,如 `//p` 选择所有段落标签,`//a[@href='example.com']` 选择特定链接。在 Python 中,常用 lxml 库结合 XPath 进行网页数据抓取,支持高效解析与复杂信息提取。高级技巧涵盖轴的使用和函数应用,如 `contains()` 用于模糊匹配。
|
2月前
|
数据采集 XML 数据格式
Python爬虫--xpath
Python爬虫--xpath
25 1
|
6月前
|
XML 数据采集 前端开发
四:《智慧的网络爬虫》— 数据解析之xpath解析
本篇文章主要讲述了数据解析中的xpath解析,及相对路径的定位语法。最后以爬取豆瓣top250首页作为示例总结
108 5
四:《智慧的网络爬虫》—  数据解析之xpath解析
|
6月前
|
数据采集 Python 前端开发
python语言通过简单爬虫实例了解文本解析与读写
python|通过一个简单爬虫实例简单了解文本解析与读写
|
6月前
|
数据采集 存储 Web App开发
python爬虫编写实例分享
python爬虫编写实例分享
48 0
|
7月前
|
数据采集 存储 JavaScript
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
Buzz库网络爬虫实例:快速爬取百度搜索实时热点
|
7月前
|
数据采集 存储 数据处理
Python爬虫在Django项目中的数据处理与展示实例
Python爬虫在Django项目中的数据处理与展示实例
|
7月前
|
数据采集 XML 数据格式
Python爬虫Xpath库详解#4
XPath详解,涉及获取所有节点,子节点,父节点,属性匹配,文本获取,属性获取,按序选择等。【2月更文挑战第13天】
83 0
|
数据采集 NoSQL 关系型数据库
Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例
网络爬虫是一种自动从互联网上获取数据的程序,它可以用于各种目的,如数据分析、信息检索、竞争情报等。网络爬虫的实现方式有很多,不同的编程语言和框架都有各自的优势和特点。在本文中,我将介绍一种使用Go语言和pholcus库的网络爬虫工程,以抓取头条新闻的数据为例,展示pholcus库的功能和用法。
952 0
Go语言网络爬虫工程经验分享:pholcus库演示抓取头条新闻的实例