Jsoup爬虫

简介: 下面是提供的内容摘要,已压缩至240个字符以内,并采用了Markdown格式:## 爬虫技术与 Jsoup 实践1. **爬虫技术** - 自动化程序访问网页并提取数据。 - 用于数据分析、搜索引擎索引等。2. **了解Jsoup** - Java HTML解析器。 - 支持DOM, CSS选择器及jQuery风格操作。3. **Java代码实操** - [项目下载](https://pan.baidu.com/s/1u176Wf0BJrL6HeD39saG3Q?pwd=y9eq) 提取码: `y9eq`. - 运行`JsoupDem

1.什么是爬虫技术

爬虫技术(Web scraping)是一种通过自动化程序来访问网页并提取数据的技术。这些程序被称为爬虫(spider)或者网络爬虫(web crawler)。爬虫技术通常用于从网页上抓取大量数据,这些数据可以用于各种用途,例如数据分析、搜索引擎索引、价格比较、内容聚合等

2.了解jsoup

jsoup 是一款Java 的HTML解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于jQuery的操作方法来取出和操作数据。如果你想要简单爬虫实现那它是再好不过了.

3.Java代码实操

3.1 工程导入

在IDEA中打开JsoupDemo项目

项目在百度网盘中

链接: https://pan.baidu.com/s/1u176Wf0BJrL6HeD39saG3Q?pwd=y9eq 提取码: y9eq

3.2 运行演示

打开项目,在点击JsoupDemo文件,按照下图进行操作 image.png

运行项目,控制台会打印爬取到的信息

image.png

3.3 原理分析

当我们尝试访问某一个网站时,打开控制台点击元素时(根据浏览器不同打开的发送)可以看到有大量的原始代码返回,这部分我们叫做前端代码0

image.png

此时,假设我们需要爬取某部分信息,只需要右键检查内容,此时下面的前端代码Elements会自动定位

image.png

所以这里,一个jsoup技术就可以帮我们实现,当我们想要所有的动态列表,就可以通过这个映射关系实现

image.png

注意事项

  • 这里的获取,因为前端的cur标签是class="container",所以我们右侧Java代码是:getElementsByClass("container");,这两部分需保持一致


  • 并不是所有的页面都允许爬取,比如我们爬取京东、淘宝,他会自动跳转到登录页,就不允许爬虫程序的爬取


尝试自己找一个网站,爬取自己感兴趣的内容,以下可做参考

  • 大学官网
  • 小说网站
  • 天气网站
相关文章
|
4月前
|
数据采集
JSoup 爬虫遇到的 404 错误解决方案
JSoup 爬虫遇到的 404 错误解决方案
|
18天前
|
数据采集 存储 前端开发
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
Java爬虫开发:Jsoup库在图片URL提取中的实战应用
|
2月前
|
数据采集 前端开发
使用Jsoup爬虫
当访问网站如小说站点并使用F12或右键检查功能时,可见大量前端代码,即网页源代码。需爬取特定信息时,通过检查元素(Elements)定位所需数据位置。爬虫工作即精准截取这些代码中的目标信息,忽略无关部分。此过程涉及解析HTML结构,提取所需数据片段。
|
数据采集 JSON JavaScript
jsoup爬虫发送get、post请求、解析html、获取json
jsoup爬虫发送get、post请求、解析html、获取json
634 0
|
数据采集 Web App开发 存储
Java爬虫第五篇:使用selenium、Jsoup 抓取bing搜索图片
Java爬虫第五篇:使用selenium、Jsoup 抓取bing搜索图片
272 0
|
数据采集 Web App开发 存储
Java爬虫第四篇:使用selenium、Jsoup 抓取图片
Java爬虫第四篇:使用selenium、Jsoup 抓取图片
442 0
|
数据采集 Java Maven
Java爬虫第三篇:使用Jsoup 抓取文章
Java爬虫第三篇:使用Jsoup 抓取文章
139 0
|
数据采集 JavaScript 前端开发
JAVA网络爬虫之Jsoup解析
JAVA网络爬虫之Jsoup解析
|
数据采集 Java 程序员
java爬虫框架之jsoup的使用
java爬虫框架之jsoup的使用
|
1月前
|
机器学习/深度学习 数据采集 数据可视化
基于爬虫和机器学习的招聘数据分析与可视化系统,python django框架,前端bootstrap,机器学习有八种带有可视化大屏和后台
本文介绍了一个基于Python Django框架和Bootstrap前端技术,集成了机器学习算法和数据可视化的招聘数据分析与可视化系统,该系统通过爬虫技术获取职位信息,并使用多种机器学习模型进行薪资预测、职位匹配和趋势分析,提供了一个直观的可视化大屏和后台管理系统,以优化招聘策略并提升决策质量。