Python selenuim实战

简介: 使用Selenium爬取苏宁易购商品信息,步骤包括打开网页、翻页、获取信息并保存至本地JSON文件。核心功能有滚动页面加载更多商品(模拟鼠标滚动)和抓取每页数据(提取标题和价格)。主程序通过循环实现自动翻页,直到无下一页按钮,最终将所有数据整合到一个JSON文件中。完整代码展示了所需导入的模块、滚动页面及获取数据的函数,以及主程序逻辑。

selenuim实战

这个案例是爬取苏宁易购的商品信息,需要知道xpath标签的位置和如何实现翻页以及最终的数据保存到本地。

首先说流程

  1. 打开网页
  2. 翻页
  3. 获取信息并保存
  4. 重复2

本节案例中涉及了几个技术难点:第一,如何下拉滚动条下载商品,第二,如何实现翻页,也就是抓取下一页的内容,第三,如何判断数据已经抓取完毕,即终止页。下面我们逐步讲解。

当然!让我一步步来解释以上代码的作用和细节:

导入必要的模块

from selenium import webdriver
from selenium.webdriver.common.by import By
import json
import time
from selenium.webdriver.edge.options import Options

这里导入了Selenium库中需要的模块,包括webdriver用于驱动浏览器,By用于定位元素,json用于处理JSON格式数据,time用于进行时间相关操作,Options用于配置浏览器选项。

实现滚动页面函数

def scrollToDown():
    for i in range(1, 100):
        time.sleep(0.7)
        driver.execute_script(f"window.scrollTo(0, {i*500})")
        y = driver.execute_script("return window.scrollY")
        if y > 11000:
            break

这个函数名为scrollToDown,它的作用是模拟鼠标滚动页面,使页面不断向下滚动以加载更多的商品信息。循环中的execute_script方法用于在浏览器中执行JavaScript代码,实现滚动效果,并通过判断页面滚动的位置来确定何时停止滚动。

实现获取数据函数

def getData():
    prices = driver.find_elements(By.XPATH, "//div[@class='price-box']")
    titles = driver.find_elements(By.XPATH, "//div[@class='title-selling-point']")
    items = []
    for title, price in zip(titles, prices):
        item = {
   
            "title": title.text,
            "price": price.text
        }
        items.append(item)
    with open("1.json", "a", encoding="utf-8") as f:
        for item in items:
            json.dump(item, f, ensure_ascii=False)
            f.write(",\n")

这个函数名为getData,它的作用是从当前页面中提取商品标题和价格信息,并将其保存为JSON格式的文件。通过find_elements方法找到对应的元素,然后将数据组装成字典形式,最后以JSON格式写入文件。

  1. 主程序
if __name__ == '__main__':
    options = Options()
    url = "https://list.suning.com/0-179001-0.html?safp=d488778a.46601.searchMain.4&safc=cate.0.0&safpn=10006"
    driver = webdriver.Edge()
    driver.get(url)
    with open("suning.json", "a", encoding="utf-8") as f:
        f.write("[\n")
    while True:
        scrollToDown()
        getData()
        time.sleep(1)
        try:
            next_page_button = driver.find_element(By.XPATH, "//a[@id='nextPage']")
            if next_page_button.is_displayed():
                next_page_button.click()
            else:
                break
        except:
            break
    with open("1.json", "a", encoding="utf-8") as f:
        f.write("\n]")
    driver.quit()

主程序首先设置了浏览器选项并指定了要爬取的网址,然后打开了浏览器并开始爬取数据。while循环不断地滚动页面、获取数据,并尝试点击下一页按钮进行翻页,直到没有下一页按钮为止。最后关闭浏览器并保存数据。

完整代码

from selenium import webdriver
from selenium.webdriver.common.by import By
import json
import time
from selenium.webdriver.edge.options import Options

def scrollToDown():
    for i in range(1, 100):
        time.sleep(0.7)
        driver.execute_script(f"window.scrollTo(0, {i*500})")
        y = driver.execute_script("return window.scrollY")
        if y > 11000:
            break

def getData():
    prices = driver.find_elements(By.XPATH, "//div[@class='price-box']")
    titles = driver.find_elements(By.XPATH, "//div[@class='title-selling-point']")
    items = []
    for title, price in zip(titles, prices):
        item = {
   
            "title": title.text,
            "price": price.text
        }
        items.append(item)
    with open("1.json", "a", encoding="utf-8") as f:
        for item in items:
            json.dump(item, f, ensure_ascii=False)
            f.write(",\n")

if __name__ == '__main__':
    options = Options()
    url = "https://list.suning.com/0-179001-0.html?safp=d488778a.46601.searchMain.4&safc=cate.0.0&safpn=10006"
    driver = webdriver.Edge()
    driver.get(url)
    with open("suning.json", "a", encoding="utf-8") as f:
        f.write("[\n")
    while True:
        scrollToDown()
        getData()
        time.sleep(1)
        try:
            next_page_button = driver.find_element(By.XPATH, "//a[@id='nextPage']")
            if next_page_button.is_displayed():
                next_page_button.click()
            else:
                break
        except:
            break
    with open("1.json", "a", encoding="utf-8") as f:
        f.write("\n]")
    driver.quit()
目录
相关文章
|
4天前
|
存储 数据采集 数据库
Python爬虫实战:股票分时数据抓取与存储
Python爬虫实战:股票分时数据抓取与存储
|
28天前
|
运维 Shell 数据库
Python执行Shell命令并获取结果:深入解析与实战
通过以上内容,开发者可以在实际项目中灵活应用Python执行Shell命令,实现各种自动化任务,提高开发和运维效率。
56 20
|
1月前
|
测试技术 数据库 Python
Python装饰器实战:打造高效性能计时工具
在数据分析中,处理大规模数据时,分析代码性能至关重要。本文介绍如何使用Python装饰器实现性能计时工具,在不改变现有代码的基础上,方便快速地测试函数执行时间。该方法具有侵入性小、复用性强、灵活度高等优点,有助于快速发现性能瓶颈并优化代码。通过设置循环次数参数,可以更准确地评估函数的平均执行时间,提升开发效率。
106 61
Python装饰器实战:打造高效性能计时工具
|
2月前
|
数据采集 存储 XML
python实战——使用代理IP批量获取手机类电商数据
本文介绍了如何使用代理IP批量获取华为荣耀Magic7 Pro手机在电商网站的商品数据,包括名称、价格、销量和用户评价等。通过Python实现自动化采集,并存储到本地文件中。使用青果网络的代理IP服务,可以提高数据采集的安全性和效率,确保数据的多样性和准确性。文中详细描述了准备工作、API鉴权、代理授权及获取接口的过程,并提供了代码示例,帮助读者快速上手。手机数据来源为京东(item.jd.com),代理IP资源来自青果网络(qg.net)。
|
2月前
|
存储 数据采集 人工智能
Python编程入门:从零基础到实战应用
本文是一篇面向初学者的Python编程教程,旨在帮助读者从零开始学习Python编程语言。文章首先介绍了Python的基本概念和特点,然后通过一个简单的例子展示了如何编写Python代码。接下来,文章详细介绍了Python的数据类型、变量、运算符、控制结构、函数等基本语法知识。最后,文章通过一个实战项目——制作一个简单的计算器程序,帮助读者巩固所学知识并提高编程技能。
|
2月前
|
小程序 开发者 Python
探索Python编程:从基础到实战
本文将引导你走进Python编程的世界,从基础语法开始,逐步深入到实战项目。我们将一起探讨如何在编程中发挥创意,解决问题,并分享一些实用的技巧和心得。无论你是编程新手还是有一定经验的开发者,这篇文章都将为你提供有价值的参考。让我们一起开启Python编程的探索之旅吧!
65 10
|
3月前
|
算法 Unix 数据库
Python编程入门:从基础到实战
本篇文章将带你进入Python编程的奇妙世界。我们将从最基础的概念开始,逐步深入,最后通过一个实际的项目案例,让你真正体验到Python编程的乐趣和实用性。无论你是编程新手,还是有一定基础的开发者,这篇文章都将为你提供有价值的信息和知识。让我们一起探索Python的世界吧!
|
3月前
|
数据处理 Python
探索Python中的异步编程:从基础到实战
在Python的世界中,“速度”不仅是赛车手的追求。本文将带你领略Python异步编程的魅力,从原理到实践,我们不单单是看代码,更通过实例感受它的威力。你将学会如何用更少的服务器资源做更多的事,就像是在厨房里同时烹饪多道菜而不让任何一道烧焦。准备好了吗?让我们开始这场技术烹饪之旅。
|
3月前
|
并行计算 调度 开发者
探索Python中的异步编程:从基础到实战
在Python的世界里,异步编程是一种让程序运行更加高效、响应更快的技术。本文不仅会介绍异步编程的基本概念和原理,还将通过具体代码示例展示如何在Python中实现异步操作。无论你是初学者还是有经验的开发者,都能从中获益,了解如何运用这一技术优化你的项目。
|
3月前
|
机器学习/深度学习 数据采集 人工智能
机器学习入门:Python与scikit-learn实战
机器学习入门:Python与scikit-learn实战
107 0

热门文章

最新文章

推荐镜像

更多