【实战案例】使用火语言RPA『表格数据提取』组件,批量爬取蔬菜价格+Excel 整理

简介: 火语言RPA中,爬取网页表格数据不必逐个提取元素!使用「表格数据提取」组件,可一键抓取整表内容。本文以采集10页蔬菜价格为例,手把手教你新建全局表格、循环翻页、自动提取并导出Excel,最后进行数据清洗整理,全程可视化操作,新手也能快速上手,高效完成多页表格采集任务。

在火语言 RPA 爬取网页数据时,很多新手只知道用「获取多元素信息属性值」「获取单元素信息属性值」逐个抠取数据?其实面对网页表格类数据时,用「表格数据提取」组件也是不错的选择!不用逐行逐列手动定位元素,不用反复配置属性值,一键就能抓取整表数据。今天就以爬取 10 页蔬菜价格为例,手把手拆解「表格数据提取」组件,新手也能轻松搞定多页表格数据采集~
image.png

一、案例功能概述

自动爬取 https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice 10 页蔬菜价格表格数据,汇总到 Excel;

二、流程核心逻辑

核心逻辑:打开浏览器→访问网页→创建全局表格→循环爬10页数据(提取→写入全局表格→翻页)→导出Excel→关闭浏览器→Excel后处理(打开→删列/插列→写表头→整理数据→保存)

三、详细操作步骤

(一)数据爬取

组件1,打开浏览器,选择浏览器类型
image.png

组件2,浏览网页,输入网址URL:https://www.jnmarket.net/fruitsvegetables/dailyprice/vegprice
image.png

组件3,表格打开或新建,新建空表格,用于存储表格数据,这里我们把新建的表格输出到变量全局表格,用于后续写入表格数据
image.png

组件4,表格数据初始化,初始化表格,这里初始化2列(具体设置两列在组件6详细说明)
image.png

组件5,For循环,因为这里采集10页数据,所以这里循环条件为:i<10
image.png

组件5.1,表格数据提取,通过自带的选择元素工具设置提取配置自动获取表格数据,输出到变量表格数据
image.png

提取的时候发现该网站的表格,产品名称,最高价,最低价,参考价,规格,日期提取到一列, 核心原因是网页表格的 HTML 结构不是 “标准多列表格”,导致「表格数据提取」组件把整行内容识别成了 “单个单元格”;这里将网页的数据自动提取到两列,后续可以使用「字符串分割成列表」,来分割表格数据。
image.png

组件5.2,打印日志,拖拽「打印日志」到「表格数据提取」下方,验证数据提取结果
image.png

组件5.3,For循环,循环表格数据的总行数,写入表格i<表格数据.Rows.Count
(参见https://www.huoyuyan.com/community/detail.html?id=386
image.png

组件5.3.1,表格数据写入,将表格数据按行追加写入
列索引:0~1,列索引从O开始,支持同时操作多列,格式为逗号分隔或波浪线连续列,如:1,2,3或0~3,n表示倒数第n列
指定单行索引:全局表格.Rows.Count,作为 “下一行写入位置”(表格有 N 行,下一行就写第 N 行,无需手动加 1!总行数本身就是下一行的索引,行索引从 0 开始)
写入内容:表格数据.Rows[i].ItemArray,「表格数据提取」得到的临时表格变量,定位临时表格里的第 i 行(i 从 0 开始),提取该行的纯数据(过滤格式 / 样式)
image.png

组件5.4,鼠标/元素点击,点击下一页
image.png

组件6,表格数据导出,将数据导出本地
image.png

组件7,关闭浏览器
image.png

(二)Excel 自动化后处理

可以参考之前的案例:https://www.huoyuyan.com/community/detail.html?id=353
image.png

下面调试该脚本,获取采集结果:
image.png

「表格数据提取」完整脚本分享:
分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiMjVkZDc2MGI0NDg1NDhmMDhhNGJjNjY1NGEzOGZkYzQifQ== 提取码: X5Pf

目录
相关文章
|
6天前
|
存储 人工智能 算法
构建AI智能体:四十七、Agent2Agent多智能体系统:基础通信与任务协作实现
摘要:Agent2Agent(A2A)是一个促进多智能体间通信与协作的框架,通过标准化协议实现复杂问题求解。智能体具备自主性、社交能力等特征,分为反应型、慎思型等类型。框架提供四种协作模式和多种冲突解决机制,采用消息传递方式进行通信,包含传输层、任务分配器等组件。演示案例展示了任务管理器与工作者智能体之间的任务分配与执行流程,包括问候交互、任务创建、结果反馈等环节。该框架适用于分布式系统管理、多模态AI协作等场景,为构建智能自治系统提供基础支持。示例代码实现了智能体注册、消息传递和任务处理的核心功能。
237 8
|
3天前
|
存储 机器学习/深度学习 人工智能
打破硬件壁垒!煎饺App:强悍AI语音工具,为何是豆包AI手机平替?
直接上干货!3000 字以上长文,细节拉满,把核心功能、使用技巧和实测结论全给大家摆明白,读完你就知道这款 “安卓机通用 AI 语音工具"——煎饺App它为何能打破硬件壁垒?它接下来,咱们就深度拆解煎饺 App—— 先给大家扒清楚它的使用逻辑,附上“操作演示”和“🚀快速上手不踩坑 : 4 条核心操作干货(必看)”,跟着走零基础也能快速上手;后续再用真实实测数据,正面硬刚煎饺 App的语音助手口令效果——创建京东「牛奶自动下单神器」口令 ,从修改口令、识别准确率到场景实用性,逐一测试不掺水,最后,再和豆包 AI 手机语音助手的普通版——豆包App对比测试下,简单地谈谈煎饺App的能力边界在哪?
|
17天前
|
数据采集 人工智能 自然语言处理
让跨境电商“懂文化”:AI内容生成在全球民族特色品类中的实践
本文提出并落地了一套基于大模型与民族文化知识库的民族品类智能识别与匹配方案,旨在解决跨境电商平台在服务穆斯林、印度裔等特定民族群体时面临的“供需错配”难题。
405 26
|
26天前
|
自然语言处理 JavaScript 前端开发
理解JavaScript闭包:从入门到实战
理解JavaScript闭包:从入门到实战
220 118
|
3天前
|
弹性计算 搜索推荐 应用服务中间件
阿里云服务器优惠价格表:38元1年、99元和199元收费,一个月89元和160元配置清单
阿里云爆款服务器特惠:轻量应用服务器38元/年起,ECS云服务器2核2G仅99元/年,2核4G 199元/年;4核16G 89元/月,8核32G 160元/月。香港轻量服务器25元/月起,200M带宽不限流量。GPU服务器A10/T4/V100等型号享月度优惠。更多配置及按小时计费详情,见阿里云官方活动页。
阿里云服务器优惠价格表:38元1年、99元和199元收费,一个月89元和160元配置清单
|
17天前
|
存储 SQL 分布式计算
手把手教你搞定大数据上云:数据迁移的全流程解析
本文深入探讨了企业数据迁移的核心价值与复杂挑战,重点分析了离线大数据平台在物理传输、系统耦合与数据校验三方面的难题。文章系统阐述了存储格式、表格式、计算引擎等关键技术原理,并结合LHM等工具介绍了自动化迁移的实践演进,展望了未来智能化、闭环化的数据流动方向。
344 11
手把手教你搞定大数据上云:数据迁移的全流程解析
|
3天前
|
传感器 算法 物联网
室内定位无线技术的分类和原理全解析(一)
室内定位无线技术通过射频、声波、光信号等解决卫星信号无法覆盖的盲区,实现人员、物资精准定位。主流技术分射频、声波、光学及新兴四大类,涵盖蓝牙、UWB、Wi-Fi、红外、可见光、毫米波等,适用于工业、医疗、园区等多场景,各具精度、成本与部署优势。
|
17天前
|
人工智能 前端开发 算法
大厂CIO独家分享:AI如何重塑开发者未来十年
在 AI 时代,若你还在紧盯代码量、执着于全栈工程师的招聘,或者仅凭技术贡献率来评判价值,执着于业务提效的比例而忽略产研价值,你很可能已经被所谓的“常识”困住了脚步。
986 82
大厂CIO独家分享:AI如何重塑开发者未来十年
|
17天前
|
缓存 运维 监控
一次内存诊断,让资源利用率提升 40%:揭秘隐式内存治理
阿里云云监控 2.0 推出 SysOM 底层操作系统诊断能力,基于 eBPF + BTF 协同分析,无需侵入业务,即可一键完成从物理页到文件路径、再到容器进程的全栈内存归因,让“黑盒内存”无所遁形。
429 70