如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析-阿里云开发者社区

如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析

2023-07-31 389

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 在网络爬虫的领域中，动态表格是一种常见的数据展示形式，它可以显示大量的结构化数据，并提供分页、排序、筛选等功能。动态表格的数据通常是通过JavaScript或Ajax动态加载的，这给爬虫带来了一定的挑战。本文将介绍如何使用Selenium Python这一强大的自动化测试工具来爬取多个分页的动态表格，并进行数据整合和分析。

亿牛云代理.png

导语

在网络爬虫的领域中，动态表格是一种常见的数据展示形式，它可以显示大量的结构化数据，并提供分页、排序、筛选等功能。动态表格的数据通常是通过JavaScript或Ajax动态加载的，这给爬虫带来了一定的挑战。本文将介绍如何使用Selenium Python这一强大的自动化测试工具来爬取多个分页的动态表格，并进行数据整合和分析。

正文

Selenium Python简介

Selenium是一个开源的自动化测试框架，它可以模拟用户在浏览器中的操作，如点击、输入、滚动等，从而实现对网页的自动化测试或爬取。Selenium支持多种编程语言，如Java、Python、Ruby等，其中Python是最受欢迎的一种，因为它简洁、易用、灵活。Selenium Python提供了一个WebDriver API，它可以让我们通过Python代码控制不同的浏览器驱动，如Chrome、Firefox、Edge等，从而实现对不同网站和平台的爬取。

动态表格爬取步骤

要爬取多个分页的动态表格，我们需要遵循以下几个步骤：

找到目标网站和目标表格。我们需要确定我们要爬取的网站和表格的URL，并用Selenium Python打开它们。
定位表格元素和分页元素。我们需要用Selenium Python提供的各种定位方法，如find_element_by_id、find_element_by_xpath等，来找到表格元素和分页元素，并获取它们的属性和文本。
爬取表格数据和翻页操作。我们需要用Selenium Python提供的各种操作方法，如click、send_keys等，来模拟用户在表格中翻页，并用BeautifulSoup等库来解析表格数据，并存储到列表或字典中。
数据整合和分析。我们需要用Pandas等库来对爬取到的数据进行整合和分析，并用Matplotlib等库来进行数据可视化和展示。

动态表格爬取特点

爬取多个分页的动态表格有以下几个特点：

需要处理动态加载和异步请求。动态表格的数据通常是通过JavaScript或Ajax动态加载的，这意味着我们需要等待页面完全加载后才能获取到数据，或者使用Selenium Python提供的显式等待或隐式等待方法来设置超时时间。
需要处理分页逻辑和翻页规则。动态表格通常有多个分页，每个分页有不同数量的数据，我们需要根据分页元素来判断当前所在的分页，并根据翻页规则来选择下一个分页。有些网站可能使用数字按钮来表示分页，有些网站可能使用上一页和下一页按钮来表示分页，有些网站可能使用省略号或更多按钮来表示分页，我们需要根据不同情况来选择合适的翻页方法。
需要处理异常情况和错误处理。在爬取过程中，可能会遇到各种异常情况和错误，如网络中断、页面跳转、元素丢失等，我们需要用Selenium Python提供的异常处理方法来捕获和处理这些异常，并设置重试机制和日志记录。

案例

为了具体说明如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析，我们以一个实际的案例为例，爬取Selenium Easy网站上的一个表格示例，并对爬取到的数据进行简单的统计和绘图。

网站和表格介绍

Selenium Easy是一个提供Selenium教程和示例的网站，它有一个表格演示页面，展示了一个有分页功能的动态表格，这个表格有15条记录，每个分页有5条记录，共有3个分页。每条记录包含了一个人的姓名、职位、办公室、年龄、入职日期和月薪。我们的目标是爬取这个表格中的所有数据，并对不同办公室的人数和月薪进行统计和绘图。

代码实现

为了实现这个目标，我们需要用到以下几个库：

selenium：用于控制浏览器驱动和模拟用户操作
requests：用于发送HTTP请求和获取响应
BeautifulSoup：用于解析HTML文档和提取数据
pandas：用于处理数据结构和分析
matplotlib：用于绘制数据图表

首先，我们需要导入这些库，并设置一些全局变量，如浏览器驱动路径、目标网站URL、代理服务器信息等：

# 导入库
import requests
from selenium import webdriver
from bs4 import BeautifulSoup
import pandas as pd
import matplotlib.pyplot as plt

# 设置浏览器驱动路径
driver_path = r'/Users/weaabduljamac/Downloads/chromedriver'

# 设置目标网站URL
url = 'https://demo.seleniumeasy.com/table-pagination-demo.html'

# 亿牛云 爬虫代理加强版 设置代理服务器信息
proxyHost = "www.16yun.cn"
proxyPort = "3111"
proxyUser = "16YUN"
proxyPass = "16IP"

接下来，我们需要创建一个浏览器驱动对象，并设置代理服务器参数，然后打开目标网站：

# 创建浏览器驱动对象
driver = webdriver.Chrome(driver_path)

# 设置代理服务器参数
options = webdriver.ChromeOptions()
options.add_argument(f'--proxy-server=http://{proxyUser}:{proxyPass}@{proxyHost}:{proxyPort}')

# 打开目标网站
driver.get(url)

然后，我们需要定位表格元素和分页元素，并获取它们的属性和文本：

# 定位表格元素
table = driver.find_element_by_xpath('//*[@id="myTable"]')

# 定位分页元素
pagination = driver.find_element_by_xpath('//*[@id="myPager"]')

# 获取分页元素的文本
pagination_text = pagination.text

# 获取分页元素的链接列表
pagination_links = pagination.find_elements_by_tag_name('a')

接着，我们需要创建一个空列表来存储爬取到的数据，并创建一个循环来遍历每个分页，并爬取每个分页中的表格数据：

# 创建一个空列表来存储爬取到的数据
data = []

# 创建一个循环来遍历每个分页
for i in range(len(pagination_links)):
    # 获取当前分页元素的文本
    current_page_text = pagination_links[i].text

    # 判断当前分页元素是否是数字按钮或更多按钮（省略号）
    if current_page_text.isdigit() or current_page_text == '...':
        # 点击当前分页元素
        pagination_links[i].click()

        # 等待页面加载完成（可以使用显式等待或隐式等待方法来优化）
        driver.implicitly_wait(10)

        # 重新定位表格元素（因为页面刷新后原来的元素可能失效）
        table = driver.find_element_by_xpath('//*[@id="myTable"]')
        # 解析表格元素的HTML文档
        soup = BeautifulSoup(table.get_attribute('innerHTML'), 'html.parser')

        # 提取表格元素中的每一行数据
        rows = soup.find_all('tr')

        # 遍历每一行数据
        for row in rows:
            # 提取每一行数据中的每一列数据
            cols = row.find_all('td')

             # 判断每一列数据是否为空（因为表头行没有数据）
            if len(cols) > 0:
                # 获取每一列数据的文本
                name = cols[0].text
                position = cols[1].text
                office = cols[2].text
                age = cols[3].text
                start_date = cols[4].text
                salary = cols[5].text

                # 将每一列数据组合成一个字典
                record = {
   
   
                  'name': name,
                  'position': position,
                  'office': office,
                  'age': age,
                  'start_date': start_date,
                  'salary': salary
                 }

                # 将字典添加到列表中
                data.append(record)

     # 判断当前分页元素是否是上一页或下一页按钮
    elif current_page_text == 'Prev' or current_page_text == 'Next':
        # 点击当前分页元素
        pagination_links[i].click()

        # 等待页面加载完成（可以使用显式等待或隐式等待方法来优化）
        driver.implicitly_wait(10)

        # 重新定位分页元素（因为页面刷新后原来的元素可能失效）
        pagination = driver.find_element_by_xpath('//*[@id="myPager"]')

        # 重新获取分页元素的链接列表（因为页面刷新后原来的链接可能变化）
        pagination_links = pagination.find_elements_by_tag_name('a')

最后，我们需要用Pandas等库来对爬取到的数据进行整合和分析，并用Matplotlib等库来进行数据可视化和展示：

# 关闭浏览器驱动对象
driver.quit()

# 将列表转换为Pandas数据框
df = pd.DataFrame(data)

# 查看数据框的基本信息
print(df.info())

# 查看数据框的前五行
print(df.head())

# 对不同办公室的人数进行统计和分组
office_count = df.groupby('office')['name'].count()

# 对不同办公室的月薪进行统计和分组（注意月薪需要去掉货币符号和逗号，并转换为数值类型）
office_salary = df.groupby('office')['salary'].apply(lambda x: x.str.replace('$', '').str.replace(',', '').astype(float).sum())

# 绘制不同办公室的人数和月薪的柱状图
fig, ax = plt.subplots(1, 2, figsize=(12, 6))
office_count.plot.bar(ax=ax[0], title='Number of Employees by Office')
office_salary.plot.bar(ax=ax[1], title='Total Salary by Office')
plt.show()

结语

本文介绍了如何使用Selenium Python爬取多个分页的动态表格，并进行数据整合和分析。通过这个案例，我们可以学习到Selenium Python的基本用法和特点，以及如何处理动态加载和异步请求、分页逻辑和翻页规则、异常情况和错误处理等问题。Selenium Python是一个强大而灵活的自动化测试工具，它可以帮助我们实现对各种网站和平台的爬取，从而获取有价值的数据和信息。希望本文能对你有所帮助和启发，欢迎你继续探索Selenium Python的更多功能和应用。

如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析

导语

正文

Selenium Python简介

动态表格爬取步骤

动态表格爬取特点

案例

网站和表格介绍

代码实现

结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像

热门

活动广场

任务中心

开发者评测

高校计划

乘风者计划

训练营

阿里云MVP

话题

直播

下载

镜像站

技术资料

插件

如何使用Selenium Python爬取多个分页的动态表格并进行数据整合和分析

导语

正文

Selenium Python简介

动态表格爬取步骤

动态表格爬取特点

案例

网站和表格介绍

代码实现

结语

热门文章

最新文章

相关课程

相关电子书

相关实验场景

推荐镜像