python之爬取某网站图片附带源码,求精

简介: 爬取网站图片,自动保存命名,多次循环遍历

先上效果:

开始步骤:

1.百度找我喜欢的图片,太多了,慢慢来,哦哦哦——————-。终于黄天不负有心人,

2.找到了:

3.开搞:起来

   (1)伪装浏览器(俺用的FIDDLER抓包,模拟谷歌吧)

def hander_request1(url, page, i):

   url = url + str(i) + '.html'
   headers = {

       'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.93 Safari/537.36',


   }

   request = urllib.request.Request(url, headers=headers)

   return request


   # print(url)
   pass

   

2.正则拆分表单(这里写的复杂些)

part = re.compile(r'')

lt = part.findall(cont)

dirname = '美女'

# urllib.request.urlretrieve(str(lt), filepath)
print(lt)

url1 = str(lt).split('"')[1]

print(url1)

f1 = str(lt).split('"')[-2]

filename = f1

print(filename + ' 开始下载')

filepath = dirname + '/' + filename + '.jpg'
if not os.path.exists(dirname):

   os.mkdir(dirname)

# nt=mt.split()[0]


3.保存文件路径和名称

requset1 = urllib.request.Request(url=url1, headers=hd)

response1 = urllib.request.urlopen(requset1)

# urllib.request.urlretrieve(url1, filepath)
wenjianming = filename + '.jpg'
with open(wenjianming, 'wb') as fp:

   fp.write(response1.read())


# print(mt+'下载完成')
print(filename + ' 完成下载')


4.俺的图片都是分类的,套图得明白??

写了两个循环

def main():

   url = 'http://www.kantuba.net/guonei/'
   start_page = int(input('输入开始页码:'))

   end_page = int(input('请输入结束页码:'))

   #i网页计数器,可以用
   i = 0
   page = 0
   if start_page == 1:

       for i in range(10000, 10020):

           request = hander_request1(url, page, i)

           cont = urllib.request.urlopen(request).read().decode()

           download_image(cont)

           for page in range(start_page + 1, end_page):

               request = hander_request(url, page, i)

               cont = urllib.request.urlopen(request).read().decode()

               download_image(cont)

               # wenjianming = str(i) + str(page) + '.html'
               # with open(wenjianming, 'wb') as fp:
               #     fp.write(download_image(cont))
               #     # time.sleep(1)
               #     print(wenjianming + 'OK!')


   elif start_page != 1:

       for i in range(10000, 10020):

           for page in range(start_page, end_page):

               request = hander_request(url, page, i)

               cont = urllib.request.urlopen(request).read().decode()

               download_image(cont)


   pass


5.亲测效果杠杠的,拿走即可。拿回去只需要改正则表达式和URL。即可,被窝里看别忘了感谢我哦哦,啧啧啧!拿走不谢!

目录
相关文章
|
2月前
|
存储 人工智能 开发工具
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
只需要通过向AI助理提问的方式输入您的需求,即可瞬间获得核心流程代码及参数,缩短学习路径、提升开发效率。
1443 4
AI助理化繁为简,速取代码参数——使用python SDK 处理OSS存储的图片
|
2月前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
30 1
|
2月前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
86 0
|
14天前
|
JSON 开发工具 git
基于Python和pygame的植物大战僵尸游戏设计源码
本项目是基于Python和pygame开发的植物大战僵尸游戏,包含125个文件,如PNG图像、Python源码等,提供丰富的游戏开发学习素材。游戏设计源码可从提供的链接下载。关键词:Python游戏开发、pygame、植物大战僵尸、源码分享。
|
2月前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
152 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
2月前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
24 1
|
2月前
|
编解码 UED Python
Python批量修改指定目录下图片的大小名文章
Python批量修改指定目录下图片的大小名文章
16 1
|
2月前
|
iOS开发 MacOS Python
Python编程小案例—利用flask查询本机IP归属并输出网页图片
Python编程小案例—利用flask查询本机IP归属并输出网页图片
24 1
|
2月前
|
自然语言处理 Java 编译器
为什么要看 Python 源码?它的结构长什么样子?
为什么要看 Python 源码?它的结构长什么样子?
32 2
|
2月前
|
数据采集 自然语言处理 Python
用 Python 生成并识别图片验证码
用 Python 生成并识别图片验证码
41 1