python使用aiohttp通过设置代理爬取基金数据

简介: python使用aiohttp通过设置代理爬取基金数据

说到python爬虫,我们就会想到它那强大的库,很多新手小白在选择框架的时候都会想到使用Scrapy,但是仅仅停留在会使用的阶段。在实际爬虫过程中遇到反爬机制是再常见不过的,今天为了增加对爬虫机制的理解,我们就通过手动实现多线程的爬虫过程,同时引入IP代理池进行基本的反爬操作。
这里我们就以天天基金数据为实际项目,该网站具有反爬机制,同时数量足够大,多线程效果较为明显。所以这里需要使用的到的技术路线有
IP代理池
多线程
爬虫与反爬
通过基础的分析天天基金网的一些数据。经过抓包分析,可知:./fundcode_search.js包含所有基金的数据,同时,该地址具有反爬机制,多次访问将会失败甚至封IP的情况。分析完天天基金网的数据后,我们选择使用搭建IP代理池,用于反爬作用。代理池直接通过代理厂家提供就可以,有太多的代理很多同学不知道怎么选择,经过多年爬虫经验和使用代理的经验这里推荐亿牛云代理,长期使用不管是代理质量还是售后服务都是优于其他代理长家的。
搭建完IP代理池后,我们开始着手多线程爬取数据的工作。一旦使用多线程,就需要考虑到一些爬取中会出现的问题。接下来的实际就是,python使用aiohttp 通过设置代理IP获取数据的过程:
```# 导入相关库
import asyncio
import aiohttp
from aiohttp_socks import ProxyConnector
from bs4 import BeautifulSoup

定义目标网站和代理服务器的参数

url = "http://fund.eastmoney.com/fund.html#os_0;isall_0;ft_;pt_1"
proxy = "socks5://16yun:16ip@www.16yun.cn:11111"

定义异步函数来发送GET请求,并使用代理服务器来连接目标网站

async def fetch(session, url):
try:
async with session.get(url) as response:

        # 检查响应状态码是否为200,否则抛出异常
        if response.status != 200:
            raise Exception(f"Bad status code: {response.status}")
        # 返回响应内容的文本格式
        return await response.text()
except Exception as e:
    # 打印异常信息,并返回None
    print(e)
    return None

定义异步函数来处理响应结果,并解析HTML内容

async def parse(html):

# 如果响应结果不为空,则进行解析操作
if html is not None:
    # 使用bs4库来创建BeautifulSoup对象,并指定解析器为html.parser
    soup = BeautifulSoup(html, "html.parser")
    # 提取网页中的标题标签,并打印其文本内容
    title = soup.find("title")
    print(title.text)
else:
    # 否则打印None表示无效结果
    print(None)

定义异步函数来统计成功次数,并打印结果

async def count(results):

# 初始化成功次数为0
success = 0
# 遍历所有的结果,如果不为空,则增加成功次数,否则跳过
for result in results:
    if result is not None:
        success += 1
# 打印总共的请求数和成功次数    
print(f"Total requests: {len(results)}")
print(f"Success requests: {success}")

定义异步主函数来创建并运行多个协程任务,并控制并发数量和超时时间等参数

async def main():

# 创建一个aiohttp_socks.ProxyConnector对象,用来设置代理服务器的参数    
connector = ProxyConnector.from_url(proxy)
# 创建一个aiohttp.ClientSession对象,用来发送HTTP请求,并传入connector参数    
async with aiohttp.ClientSession(connector=connector) as session:
    # 创建一个空列表,用来存储所有的协程任务        
    tasks = []
    # 循环10000次,每次创建一个fetch函数的协程任务,并添加到列表中        
    for i in range(10000):
        task = asyncio.create_task(fetch(session, url))
        tasks.append(task)

    # 使用asyncio.gather函数来收集并执行所有的协程任务,并返回一个包含所有结果的列表        
    results = await asyncio.gather(*tasks)

    # 创建一个空列表,用来存储所有的解析任务        
    parse_tasks = []

     for result in results:
         parse_task = asyncio.create_task(parse(result))
         parse_tasks.append(parse_task)

     await asyncio.gather(*parse_tasks)   

     await count(results)

在程序入口处调用异步主函数,并启动事件循环

if name == "main":
asyncio.run(main())
```

相关文章
|
1月前
|
数据采集 数据可视化 数据挖掘
利用Python自动化处理Excel数据:从基础到进阶####
本文旨在为读者提供一个全面的指南,通过Python编程语言实现Excel数据的自动化处理。无论你是初学者还是有经验的开发者,本文都将帮助你掌握Pandas和openpyxl这两个强大的库,从而提升数据处理的效率和准确性。我们将从环境设置开始,逐步深入到数据读取、清洗、分析和可视化等各个环节,最终实现一个实际的自动化项目案例。 ####
106 10
|
2月前
|
Python
Python中的异步编程:使用asyncio和aiohttp实现高效网络请求
【10月更文挑战第34天】在Python的世界里,异步编程是提高效率的利器。本文将带你了解如何使用asyncio和aiohttp库来编写高效的网络请求代码。我们将通过一个简单的示例来展示如何利用这些工具来并发地处理多个网络请求,从而提高程序的整体性能。准备好让你的Python代码飞起来吧!
91 2
|
10天前
|
数据采集 Web App开发 监控
Python爬虫:爱奇艺榜单数据的实时监控
Python爬虫:爱奇艺榜单数据的实时监控
|
1月前
|
数据采集 分布式计算 大数据
构建高效的数据管道:使用Python进行ETL任务
在数据驱动的世界中,高效地处理和移动数据是至关重要的。本文将引导你通过一个实际的Python ETL(提取、转换、加载)项目,从概念到实现。我们将探索如何设计一个灵活且可扩展的数据管道,确保数据的准确性和完整性。无论你是数据工程师、分析师还是任何对数据处理感兴趣的人,这篇文章都将成为你工具箱中的宝贵资源。
|
2月前
|
传感器 物联网 开发者
使用Python读取串行设备的温度数据
本文介绍了如何使用Python通过串行接口(如UART、RS-232或RS-485)读取温度传感器的数据。详细步骤包括硬件连接、安装`pyserial`库、配置串行端口、发送请求及解析响应等。适合嵌入式系统和物联网应用开发者参考。
64 3
|
2月前
|
图形学 Python
SciPy 空间数据2
凸包(Convex Hull)是计算几何中的概念,指包含给定点集的所有凸集的交集。可以通过 `ConvexHull()` 方法创建凸包。示例代码展示了如何使用 `scipy` 库和 `matplotlib` 绘制给定点集的凸包。
38 1
|
2月前
|
数据采集 JavaScript 程序员
探索CSDN博客数据:使用Python爬虫技术
本文介绍了如何利用Python的requests和pyquery库爬取CSDN博客数据,包括环境准备、代码解析及注意事项,适合初学者学习。
95 0
|
2月前
|
数据采集 存储 分布式计算
超酷炫Python技术:交通数据的多维度分析
超酷炫Python技术:交通数据的多维度分析
|
数据安全/隐私保护 数据格式 Python
python爬取快手商品数据
python爬取快手商品数据
|
数据采集 前端开发 搜索推荐
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据
python如何通过分布式爬虫爬取舆情数据