抓取网页
上面请求链接返回的是JSON格式的字符串,那么请求普通的网页,就能获取到相对应的内容根据例
r=requests.get("https://ssr1.scrape.center/")
pattern=re.compile("<h2.?>(.?)",re.S)
titles=re.findall(pattern,r.text)
print(titles)
这就是最简单的一个抓取和提取的过程
抓取二进制数据
我们抓取的是一个页面他的实质是HTML文档,但是当我们要爬取图片,音频,视频时,这些文件本质上都是由二进制码组成的,要抓取他们,就必须要拿到他们的二进制数据,抓取站点图标,也就是浏览器中每一个标签上显示的的小图标,
爬取到的数据为二进制数据,我们可以通过open方法打开并保存图片。
添加请求头
我们可以通过headers参数来添加请求头,我们可以在其中添加任何的字段,如果我们想添加一个请求头的User-Agent字段我们可以
import requests
headers={
"User-Agent":"Mozilla/5.0(Macintosh;Intel Mac OS X 10_11_4" AppleWebkit/537(KHTML,like Cecko)Chrome/52.0.2743.116 Safari/ 537.36"
r=requsts.get("https://ssr1.scrape.center/",headers=headers)
print(r.text)
当然我们也可以在headers参数中添加任何其他字段信息
}