爬取网站的所有链接

简介: 爬取网站的所有链接

编写代码生成TXT

import urllib.request
import re

1. 确定好要爬取的入口链接

url = "http://pms3.ah.cmcc/"

2.根据需求构建好链接提取的正则表达式

pattern1 = '<.?(src=".?").*?'

3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')

4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1, data, re.I)

print(content_href)

5.过滤掉重复的链接

# 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

6.后续操作,比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"
with open(file_new, 'w') as f:
for i in set1:
f.write(i)
f.write("\n")

f.close()

————————————————

                        版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。

原文链接:https://blog.csdn.net/weixin_43650289/article/details/106166255

目录
相关文章
|
8月前
|
数据采集 Python
Python爬虫:实现爬取、下载网站数据的几种方法
Python爬虫:实现爬取、下载网站数据的几种方法
563 1
|
3月前
|
Web App开发 数据采集 iOS开发
爬取网站的所有链接
爬取网站的所有链接
61 1
|
数据采集 IDE 开发工具
python爬虫入门教程:爬取网页图片
python爬虫入门教程:爬取网页图片
347 0
|
JSON 数据格式
爬取微博评论内容
网友:看看胸女:滚 网友:美胸比赛女:[图片消息] ​​​​ 继上次知乎话题 拥有一副好身材是怎样的体验? 解析了知乎回答内容之后,这次我们来解析一下微博内容,以微博网友发起的美胸大赛为例: https://m.weibo.cn/detail/4367970740108457 https://m.weibo.cn/detail/4348022520956497 这就是本次要获取的微博图片内容,共计672张很凶的照片: 下面是讲如何获取的,不感兴趣的话直接去公众号回复 套图 即可获得。
2198 0
|
数据采集
简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。     大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、多次响应等等。
944 0
|
SQL 前端开发 数据库
scrapy简书整站爬取
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.
2587 0
|
数据采集
解决百度蜘蛛无法爬取Hexo博客的问题
写在前面   先上两张图对比下: Google-site:blog.mariojd.cn Baidu-site:blog.mariojd.cn   由于GitHub Pages是拒绝百度爬虫爬取的,包括用Hexo或Jekyll搭建的博客,因此你的站点再怎么SEO优化,这在国内也是收录和搜索不到的。
1828 0
|
算法 搜索推荐 定位技术
什么样的链接对提升网站收录更有意义
说到链接SEO工作者都并不陌生,链接大致分为友链跟外链以及描文本链接等,那么什么样的链接能提升网站收录大家都没有一个准确的点,近期泽民从百度官方看了一篇专家解答,下面泽民跟大家分享下专家是如果进行解答的。
843 0
|
数据采集 Python
Python网络爬虫之爬取百度贴吧网址并保存
通过urllib2+resquest爬虫百度贴吧网址,并保存至该工作目录下 一、示例代码 示例代码 代码解析: 1.首先定义一个baidu_tieba的函数:def baidu_tieba() 2.
975 0