备案控制台

开发者社区开发与运维文章正文

爬取网站的所有链接

2024-08-23 66

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 爬取网站的所有链接

编写代码生成TXT

import urllib.request
import re

1. 确定好要爬取的入口链接

url = "http://pms3.ah.cmcc/"

2.根据需求构建好链接提取的正则表达式

pattern1 = '<.?(src=".?").*?'

3.模拟成浏览器并爬取对应的网页谷歌浏览器

headers = {'User-Agent',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')

4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1, data, re.I)

print(content_href)

5.过滤掉重复的链接

# 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

6.后续操作，比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"
with open(file_new, 'w') as f:
for i in set1:
f.write(i)
f.write("\n")

f.close()

————————————————

                        版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

原文链接：https://blog.csdn.net/weixin_43650289/article/details/106166255

文章标签：

Windows

Web App开发

iOS开发

数据采集

GG2020gg

目录

相关文章

Python编程

|

8月前

|

数据采集 Python

Python爬虫：实现爬取、下载网站数据的几种方法

Python爬虫：实现爬取、下载网站数据的几种方法

Python编程

563 1 2

GG2020gg

|

3月前

|

Web App开发数据采集 iOS开发

爬取网站的所有链接

爬取网站的所有链接

GG2020gg

61 1 1

政胤

|

数据采集 IDE 开发工具

python爬虫入门教程：爬取网页图片

python爬虫入门教程：爬取网页图片

政胤

347 0 0

爱写Bug

|

JSON 数据格式

爬取微博评论内容

网友：看看胸女：滚网友：美胸比赛女：[图片消息] 继上次知乎话题拥有一副好身材是怎样的体验？解析了知乎回答内容之后，这次我们来解析一下微博内容，以微博网友发起的美胸大赛为例： https://m.weibo.cn/detail/4367970740108457 https://m.weibo.cn/detail/4348022520956497 这就是本次要获取的微博图片内容，共计672张很凶的照片：下面是讲如何获取的，不感兴趣的话直接去公众号回复套图即可获得。

爱写Bug

2198 0 0

李明成

|

数据采集

简单爬虫-抓取博客园文章列表

如果使用对方网站数据，而又没有响应的接口，或者使用接口不够灵活的情况下，使用爬虫在合适不过了。爬虫有几种，对方网站展示形式有几种都是用分析，每个网站展示有相似的地方，有不同的地方。大部分使用httpRequst就能完成，不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、多次响应等等。

李明成

944 0 0

sixkery

|

SQL 前端开发数据库

scrapy简书整站爬取

数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.

sixkery

2587 0 0

happyjared

|

数据采集

解决百度蜘蛛无法爬取Hexo博客的问题

写在前面先上两张图对比下： Google-site:blog.mariojd.cn Baidu-site:blog.mariojd.cn 由于GitHub Pages是拒绝百度爬虫爬取的，包括用Hexo或Jekyll搭建的博客，因此你的站点再怎么SEO优化，这在国内也是收录和搜索不到的。

happyjared

1828 0 0

大宝SEO

|

算法搜索推荐定位技术

什么样的链接对提升网站收录更有意义

说到链接SEO工作者都并不陌生，链接大致分为友链跟外链以及描文本链接等，那么什么样的链接能提升网站收录大家都没有一个准确的点，近期泽民从百度官方看了一篇专家解答，下面泽民跟大家分享下专家是如果进行解答的。

大宝SEO

843 0 0

keitwotest

|

数据采集 Python

Python网络爬虫之爬取百度贴吧网址并保存

通过urllib2+resquest爬虫百度贴吧网址，并保存至该工作目录下一、示例代码示例代码代码解析： 1.首先定义一个baidu_tieba的函数：def baidu_tieba() 2.

keitwotest

975 0 0

云栖希望。

|

Web App开发数据采集 Python

开发记录_自学Python写爬虫程序爬取csdn个人博客信息

云栖希望。

1762 0 0

热门文章

最新文章

多中心容灾实践：如何实现真正的异地多活？

Canal 数据同步（应用场景） | 学习笔记

你用过的网站前端优化的技术有哪些？

Confluence 6 那些文件需要备份

解决LR-Controller场景下1个用户运行出错

Visual Studio Extensions for SharePoint Services, Really Cool !

基于链表编写“猫吃老鼠”

证码识别--type1

2012年我的关键词

「全网最细 + 实战源码案例」设计模式——外观模式

《迈向绿色智能：探寻人工智能硬件可持续发展之路》

《光存储与3D存储：开启人工智能硬件存储新时代》

《解锁AI潜能：深度挖掘工程数据宝藏》

《深度解析：VAEs如何重塑数据生成与重建格局》

《AI 造梦：解锁虚拟场景与角色逼真丰富密码》

jQuery+Slick插件实现游戏人物轮播展示切换源码

网安入门之MySQL后端基础

【03】优雅草央千澈详解关于APP签名以及分发-上架完整流程-第三篇安卓APP上架华为商店后面的步骤-华为应用商店相对比较麻烦一些-华为商店安卓上架

OpenHands：能自主检索外部知识的 AI 编程工具，自动执行命令、网页浏览和生成代码等操作

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

DataWorks智能交互式数据开发与分析之旅