我这里抓取的百度贴吧的地址是http://tieba.baidu.com/p/2460150866?pn=1。以下是源码,使用的是python2。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
import
re
#导入正则模块
import
urllib
#导入url库模块
#抓取页面的源码
def
getHtml(url):
page
=
urllib.urlopen(url)
#打开指定的URL
html
=
page.read()
#读取URL的内容并保存
return
html
#函数返回读取的内容
#下载源码中指定的图片
def
getImg(html):
reg
=
r
'src="(.+?\.jpg)" pic_ext'
imgre
=
re.
compile
(reg)
imglist
=
imgre.findall(html)
x
=
0
for
imgurl
in
imglist:
print
(imgurl)
#下载图片到指定的目录,并且重新命名
urllib.urlretrieve(imgurl,r
'C:\Users\Water\PycharmProjects\test\image\%s-%s.jpg'
%
(i,x))
x
=
x
+
1
#循环抓取所有的页面
i
=
1
while
i <
74
:
#贴吧共有74页评论
html
=
getHtml(
"http://tieba.baidu.com/p/2460150866?pn="
+
str
(i))
getImg(html)
i
+
=
1
print
(i)
|
下面是抓取的结果
本文转自 wzlinux 51CTO博客,原文链接:http://blog.51cto.com/wzlinux/1788735,如需转载请自行联系原作者