IP代理

简介: 爬虫系列文章

代理操作

  • 概念:代理服务器
  • 代理服务器的作用

    • fiddler就是一个典型的代理服务器的抓包工具。
    • 代理服务器就是用来转发请求和响应。可以让代理服务器转发请求从而更换请求的原始ip地址。
  • 代理和爬虫之间的关联?

    • 爬虫程序可能会在短时间内对指定的服务器发起高频的请求。服务器端会将该高频请求的ip禁掉。
  • 代理的匿名度

    • 透明:对方服务器知道你使用了代理也知道你的真实ip
    • 匿名:知道你使用了代理,但是不知道你的真是ip
    • 高匿:不知道你使用了代理,更不知道你的真是ip
  • 代理的类型

    • http:只能代理http协议的请求
    • https:代理https协议的请求
  • 如何获取代理服务器?

from lxml import etree
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
    page_text = requests.get(url=new_url,headers=headers).text
    tree = etree.HTML(page_text)
    #在xpath表达式中不可以出现tbody标签,否则会出问题
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))
  • 使用代理机制解除ip被禁的情况
import requests

#1.构建一个代理池
ips_list = []
url = 'http://t.11jsq.com/index.php/api/entry?method=proxyServer.generate_api_url&packid=1&fa=0&fetch_key=&groupid=0&qty=52&time=1&pro=&city=&port=1&format=html&ss=5&css=&dt=1&specialTxt=3&specialJson=&usertype=2'
page_text = requests.get(url=url,headers=headers).text
tree = etree.HTML(page_text)
ip_list = tree.xpath('//body//text()')
for ip in ip_list:
    dic = {'https':ip}
    ips_list.append(dic)
ips_list
import random

#使用代理池操作
url = 'https://www.xicidaili.com/nn/%d'
all_data = []
for page in range(1,30):
    new_url = format(url%page)
    #proxies={'http':'ip:port'}
    page_text = requests.get(url=new_url,headers=headers,proxies=random.choice(ips_list)).text
    tree = etree.HTML(page_text)
    #在xpath表达式中不可以出现tbody标签,否则会出问题
    tr_list = tree.xpath('//*[@id="ip_list"]//tr')[1:]
    for tr in tr_list:
        ip_addr = tr.xpath('./td[2]/text()')[0]
        all_data.append(ip_addr)
print(len(all_data))
相关文章
|
7月前
|
数据采集 网络协议 定位技术
Socks5代理IP可以运用到哪些应用场景?
Socks5代理与HTTP代理对比,Socks5支持多种协议,提供更强认证,适合P2P和UDP,适用于匿名上网、突破网络限制、低延迟游戏、P2P文件共享、SEO和网络爬虫。其多功能性、安全性和广泛支持使其在多个场景中优于HTTP代理。随着技术发展,Socks5代理的应用前景广阔。
|
7月前
|
数据采集 缓存 数据挖掘
什么是代理IP?代理IP有什么用途
什么是代理IP?代理IP有什么用途
186 0
|
7月前
使用代理ip后访问网站仍然被拒该怎么办?
随着科技的进步和互联网的发展,越来越多的企业在业务上都需要用到代理,那么使用代理ip后访问网站仍然被拒该怎么办?那么小编接下来就跟大家介绍一下
72 1
|
6月前
|
数据采集 安全 网络安全
代理IP纯净度如何测试?
代理IP的纯净度关乎网络隐私、稳定性和安全性。纯净IP能保护用户身份,提供稳定连接,降低被识别为恶意访问的风险,并确保数据安全。测试纯净度包括检查IP历史、黑名单状态、SSL支持、匿名度及网络性能。在网络安全至关重要的今天,纯净代理IP是重要保障。
|
6月前
|
安全 网络安全 数据安全/隐私保护
代理IP地址真的安全吗?
代理IP在隐藏用户真实IP、保护隐私方面有一定效果,但并非完全安全。代理服务器可能被黑客攻击,导致数据泄露,且不能保证匿名性。使用代理涉及法律与道德问题,需选信誉良好的服务商。用户应谨慎并采取安全措施。
|
7月前
|
数据采集 安全 数据中心
数据中心代理IP与普通代理IP有何区别?
数据中心代理IP与普通代理IP主要区别在于来源、稳定性、速度、隐私安全及可用地区。数据中心代理IP更稳定、速度快、隐私安全,提供全球IP,适合大规模爬取和数据采集;普通代理IP来源于个人或小组织,可能不稳定、速度慢,但能满足一般代理需求。
|
7月前
|
安全 网络协议 测试技术
什么是基于协议的代理ip,代理ip的种类及区别
本文探讨了基于协议的代理IP类型,包括HTTP、HTTPS和SOCKS5代理。HTTP代理虽常见但不安全,数据未加密;HTTPS代理提供SSL加密,更安全,适合网页抓取和保护隐私;SOCKS5代理是通用型,支持TCP和UDP,适用于实时数据传输和多任务场景。
|
7月前
|
存储 Python
如何在代理的IP被封后立刻换下一个IP继续任务
如何在代理的IP被封后立刻换下一个IP继续任务
|
7月前
|
网络安全 Python
使用代理ip后访问网站仍然被拒该怎么办
使用代理ip后访问网站仍然被拒该怎么办
116 6
|
7月前
|
数据采集 安全 网络安全
代理IP纯净度,对用户有多么重要!
代理IP的纯净度关乎网络稳定性、匿名性和安全性。纯净代理能保护用户隐私,防止追踪;提供稳定高效网络连接;降低账号被封风险,适合数据采集;并确保用户数据安全,避免黑客攻击。判断纯净度可查IP历史、检查黑名单、验证SSL支持与匿名度、测试网络延迟和速度。在网络安全至关重要的时代,选择高纯净度代理IP至关重要。