Python2 抓取百度贴吧图片

简介:

    我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import  re             #导入正则模块
import  urllib         #导入url库模块
 
#抓取页面的源码
def  getHtml(url):
     page  =  urllib.urlopen(url)        #打开指定的URL
     html  =  page.read()                #读取URL的内容并保存
     return  html                       #函数返回读取的内容
 
#下载源码中指定的图片    
def  getImg(html):
     reg  =  r 'src="(.+?\.jpg)" pic_ext'         
     imgre  =  re. compile (reg)
     imglist  =  imgre.findall(html)
     =  0
     for  imgurl  in  imglist:
         print (imgurl)
         #下载图片到指定的目录,并且重新命名
         urllib.urlretrieve(imgurl,r 'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg'  %  (i,x))
         =  +  1
 
#循环抓取所有的页面        
=  1
while  i <  74 :                 #贴吧共有74页评论
     html  =  getHtml( "http://tieba.baidu.com/p/2460150866?pn="  +  str (i))
     getImg(html)
     i + = 1
     print (i)


    下面是抓取的结果

wKioL1deaWDhCvxCAAR4fZV-LsI094.jpg




     本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者






相关文章
|
24天前
|
Python
Python实用记录(六):如何打开txt文档并删除指定绝对路径下图片
这篇文章介绍了如何使用Python打开txt文档,删除文档中指定路径的图片,并提供了一段示例代码来展示这一过程。
26 1
|
24天前
|
计算机视觉 Python
Python实用记录(一):如何将不同类型视频按关键帧提取并保存图片,实现图片裁剪功能
这篇文章介绍了如何使用Python和OpenCV库从不同格式的视频文件中按关键帧提取图片,并展示了图片裁剪的方法。
54 0
|
13天前
|
数据采集 JSON 数据处理
抓取和分析JSON数据:使用Python构建数据处理管道
在大数据时代,电商网站如亚马逊、京东等成为数据采集的重要来源。本文介绍如何使用Python结合代理IP、多线程等技术,高效、隐秘地抓取并处理电商网站的JSON数据。通过爬虫代理服务,模拟真实用户行为,提升抓取效率和稳定性。示例代码展示了如何抓取亚马逊商品信息并进行解析。
抓取和分析JSON数据:使用Python构建数据处理管道
|
24天前
|
Python
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
使用Python的socket库实现客户端到服务器端的图片传输,包括客户端和服务器端的代码实现,以及传输结果的展示。
97 3
Socket学习笔记(二):python通过socket实现客户端到服务器端的图片传输
|
9天前
|
数据采集 Python
python爬虫抓取91处理网
本人是个爬虫小萌新,看了网上教程学着做爬虫爬取91处理网www.91chuli.com,如果有什么问题请大佬们反馈,谢谢。
22 4
|
11天前
|
数据采集 Java Python
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
在信息化时代,实时数据的获取对体育赛事爱好者、数据分析师和投注行业至关重要。本文介绍了如何使用Python的`ThreadPoolExecutor`结合代理IP和请求头设置,高效稳定地抓取五大足球联赛的实时比赛信息。通过多线程并发处理,解决了抓取效率低、请求限制等问题,提供了详细的代码示例和解析方法。
如何用Python同时抓取多个网页:深入ThreadPoolExecutor
|
24天前
|
Python
Python实用记录(四):os模块-去后缀或者改后缀/指定目录下图片或者子目录图片写入txt/csv
本文介绍了如何使用Python的os模块来操作文件,包括更改文件后缀、分割文件路径和后缀、将指定目录下的所有图片写入txt文档,以及将指定目录下所有子目录中的图片写入csv文档,并为每个子目录分配一个标签。
14 1
|
28天前
|
编解码 UED Python
Python批量修改指定目录下图片的大小名文章
Python批量修改指定目录下图片的大小名文章
15 1
|
27天前
|
Python
Python实现图片的拼接
Python实现图片的拼接
|
6月前
|
数据安全/隐私保护 Python
Python3给图片添加水印
Python3给图片添加水印
94 1