重定向爬虫和多线程爬虫-阿里云开发者社区

重定向爬虫和多线程爬虫

2023-04-20 79

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 爬虫遇到网站跳转重新定向怎么解决，如何实现多线程爬虫加快爬取效率

在日常爬取工作中会遇到程序返回302的情况，这种是网站重新定向问题，就是爬取的网站进行了跳转，我们想要的数据又需要跳转连接才能取到，比如，我们访问 http/www.baidu.com 会跳转到 https/www.baidu.com，发送请求之后，就会返回301状态码，然后返回一个location，提示新的地址，浏览器就会拿着这个新的地址去访问。
一般出现这种情况可能有2方面的原因，一种是网址发生改变，而我们还用旧网址去访问，我们可以直接根据重定向的网址（即新的网址）来请求就可以。还有就是爬虫伪装的不够好，被服务器识别出是爬虫，这种就需要添加User-Agent,Cookie等伪装手段，可以在浏览器中输入about:version查看User-Agent,Cookie。
多线程爬虫指的是之前设计的爬虫都是从上往下依次执行的，也就是单线程爬虫，而在爬虫中使用多线程爬虫技术就可以实现部分爬虫分别执行，也就是在多条线上执行，这种执行结构是多线程爬虫，极大的提高了爬虫的效率，这里拿python获取百度数据来举例，p我们通过python+urllib库+代理IP,并且使用了threading库和time库，使其能够实现多线程采集.实现代码如下：


#要访问的目标页面
targetUrl = “https://www.baidu.com” # 修改为百度

#代理服务器(产品官网 www.16yun.cn)
proxyHost = “t.16yun.cn” proxyPort = “31111”

#代理验证信息
proxyUser = “www.16yun.cn” proxyPass = “16ip”

proxyMeta = “http://%(user)s:%(pass)s@%(host)s:%(port)s” % { “host” : proxyHost, “port” : proxyPort, “user” : proxyUser, “pass” : proxyPass, }

proxy_handler = request.ProxyHandler({ “http” : proxyMeta, “https” : proxyMeta, })

opener = request.build_opener(proxy_handler)

request.install_opener(opener)

#定义一个锁对象，用于控制每200毫秒只能请求一次
lock = threading.Lock()

#定义一个函数，用于发起请求和打印响应
def get_url(): # 获取锁，如果锁被占用，就等待，直到锁释放 lock.acquire() resp = request.urlopen(targetUrl) # 发起请求 # 判断状态码是否为200，如果不是，打印错误信息 if resp.status_code == 200: print(resp.read()) # 打印响应内容 else: print(f"请求失败，状态码为{resp.status_code}") # 打印错误信息 time.sleep(0.2) # 延时200毫秒 # 释放锁，让其他线程可以获取锁 lock.release()

#定义一个列表，用于存放线程对象
threads = []

#创建10个线程，每个线程执行get_url函数
for i in range(10): t = threading.Thread(target=get_url) # 创建线程对象 threads.append(t) # 将线程对象添加到列表中

#启动所有线程
for t in threads: t.start()

#等待所有线程结束
for t in threads: t.join()ru'h```

重定向爬虫和多线程爬虫

热门文章

最新文章

相关课程

相关电子书

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

重定向爬虫和多线程爬虫

热门文章

最新文章

相关课程

相关电子书