爬取网站的所有链接

简介: 爬取网站的所有链接

import urllib.request
import re

1. 确定好要爬取的入口链接

url = "http://pms3.ah.cmcc/"

2.根据需求构建好链接提取的正则表达式

pattern1 = '<.?(src=".?").*?'

3.模拟成浏览器并爬取对应的网页 谷歌浏览器

headers = {'User-Agent',
'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
opener = urllib.request.build_opener()
opener.addheaders = [headers]
data = opener.open(url).read().decode('utf8')

4.根据2中规则提取出该网页中包含的链接

content_href = re.findall(pattern1, data, re.I)

print(content_href)

5.过滤掉重复的链接

# 列表转集合(去重) list1 = [6, 7, 7, 8, 8, 9] set(list1) {6, 7, 8, 9}

set1 = set(content_href)

6.后续操作,比如打印出来或者保存到文件中。

file_new = "D:\爬虫\href.txt"
with open(file_new, 'w') as f:
for i in set1:
f.write(i)
f.write("\n")

f.close()

print('已经生成文件')

目录
相关文章
|
8月前
|
数据采集 Python
Python爬虫:实现爬取、下载网站数据的几种方法
Python爬虫:实现爬取、下载网站数据的几种方法
563 1
|
5月前
|
Web App开发 数据采集 iOS开发
爬取网站的所有链接
爬取网站的所有链接
65 2
|
数据采集 API 数据安全/隐私保护
利用RoboBrowser库和爬虫代理实现微博视频的爬取
微博是一个社交媒体平台,用户可以在上面发布和分享各种内容,包括文字、图片、音频和视频。微博视频是微博上的一种重要的内容形式,有时我们可能想要下载微博视频到本地,以便于观看或分析。但是,微博视频并没有提供直接的下载链接,而是通过一些加密和混淆的方式,将视频嵌入到网页中。因此,如果我们想要爬取微博视频,就需要使用一些特殊的技术和工具。
245 0
利用RoboBrowser库和爬虫代理实现微博视频的爬取
|
数据采集 IDE 开发工具
python爬虫入门教程:爬取网页图片
python爬虫入门教程:爬取网页图片
347 0
|
Web App开发 数据采集 前端开发
|
数据采集
简单爬虫-抓取博客园文章列表
如果使用对方网站数据,而又没有响应的接口,或者使用接口不够灵活的情况下,使用爬虫在合适不过了。爬虫有几种,对方网站展示形式有几种都是用分析,每个网站展示有相似的地方,有不同的地方。     大部分使用httpRequst就能完成,不管是否添加了口令、随即码、请求参数、提交方式get或者post、地址来源、多次响应等等。
944 0
|
SQL 前端开发 数据库
scrapy简书整站爬取
数据同步及异步存储到MySQL 对于ajax 加载的数据用selenium辅助加载解析 整站爬取提取url规则 jianshu.py 文件 import scrapy from scrapy.
2587 0
|
数据采集
解决百度蜘蛛无法爬取Hexo博客的问题
写在前面   先上两张图对比下: Google-site:blog.mariojd.cn Baidu-site:blog.mariojd.cn   由于GitHub Pages是拒绝百度爬虫爬取的,包括用Hexo或Jekyll搭建的博客,因此你的站点再怎么SEO优化,这在国内也是收录和搜索不到的。
1824 0
|
算法 搜索推荐 定位技术
什么样的链接对提升网站收录更有意义
说到链接SEO工作者都并不陌生,链接大致分为友链跟外链以及描文本链接等,那么什么样的链接能提升网站收录大家都没有一个准确的点,近期泽民从百度官方看了一篇专家解答,下面泽民跟大家分享下专家是如果进行解答的。
843 0
|
数据采集 Python
Python网络爬虫之爬取百度贴吧网址并保存
通过urllib2+resquest爬虫百度贴吧网址,并保存至该工作目录下 一、示例代码 示例代码 代码解析: 1.首先定义一个baidu_tieba的函数:def baidu_tieba() 2.
975 0

热门文章

最新文章