【实战案例】火语言 RPA 采集小说站已完结书名(自动翻页判断),保存到Excel 全流程(附完整脚本)

简介: 自动采集起点中文网完本小说书名,支持翻页检测与数据存储。脚本逐页抓取小说名并保存至Excel,最多采集50页,智能判断翻页逻辑,确保数据完整,适用于批量获取完结书籍信息。

一、脚本功能描述

自动打开某小说站的完本小说页面,采集已完结小说书名,将采集的书名保存到EXCEL。实现自动翻页判断,有下一页则点击下一页,无下一个则循环结束。

二、整体逻辑

1、准备:

初始化页码计数器(从第 1 页开始采,记录当前采集到第几页)

创建空列表(准备装数据的“盒子”,系统自动生成的list1 列表,用于存所有采集到的小说名)

打开浏览器、浏览网页(选择浏览器类型,访问网址URL)

2、循环采集

重复做三件事,直到满足停止条件(这里可以看到有50页,那么循环采集50页或无下一页)

采集当前页的小说名,存入 list1

判断是否需要翻页(当前页码≤50,且下一页按钮可点击时,才翻页);

翻页后更新页码(页码+1),不翻页就停。

3、保存数据:

打开 / 创建 Excel 文件;

在 Excel 的 A1 单元格写入 “小说名” 作为表头。

把列表里的名字纵向写到 Excel A 列。

4、结束操作:

保存 Excel 文件;

关闭浏览器,流程结束。

三、详细操作步骤

步骤 1:初始化页码计数器

操作细节

变量赋值,创建变量 页码:current_page,   值输1;  告诉脚本 “从第 1 页开始采”

步骤 2:建空表格存数据

操作细节

列表打开或新建,准备一个“盒子”存所有采集的小说名,系统自动命名list1

步骤 3:打开浏览器 + 打开目标页

操作细节

打开浏览器(选择浏览器类型:内置、外置、指纹)

浏览网页,输入需要采集的网址URL:https://www.qidian.com/finish/

步骤 4:循环采集

操作细节

While 循环,条件输current_page ≤50,页码控制最多采 50 页,自动重复采集动作

4.1 等页面加载

等待元素显示消失,选择器输css:.all-img-list,确保等小说列表加载完,避免采空

4.2 提取当前页小说名

获取多元素信息/属性值,择器输css:.book-mid-info h2 a(精准定位小说名),

提取类型:选择textContent(文本内容),输出变量名:current_names(临时存当前页小说名)。

这里输出变量可以选在添加变量(快速),可以自动根据组件选择类型。

4.3 合并到 list1

列表合并,将上一个组件的输出的current_names(临时存当前页小说名),合并到盒子list1

4.4 判断是否翻页(该页面只显示50页,这里就以50页作为判断依据)

条件判断,页码≤50(控制是否翻页),否则就停止。

在实操中发现,这个网站比较特殊,当页面到49页后,点击下一页按钮无效的,无法跳转到50页

所以这里判断条件逻辑为:

current_page ≠49时:直接点击下一页按钮翻页(1→2、2→3…);

current_page = 49 时:点击分页栏的 “50” 标签(确保定位到 50 页,避免跳转问题);

步骤 5:保存数据 + 结束操作

Excel打开文档,新建Excel文档,用于保存小说名

Excel写入内容,写入表头和小说名

Excel关闭保存文档

关闭浏览器

注意事项:

一、逻辑循序:先采集,后翻页

正确顺序:

等待页面加载 → 提取当前页数据 → 合并到总列表 → 翻页判断 → 执行翻页 + 更新页码,从上到下看步骤,“条件判断(IfElse)” 必须在 “提取数据”“合并列表” 之后。

二、变量与赋值:

1-48 页 / 50 页的 “页码 + 1”:

模式:必须选 “# 模式”(变量模式),值填#current_page + 1;

错误:用 “T 模式” 填current_page + 1(会变成文本 “current_page + 1”,不是数字)。

案例脚本分享: https://www.huoyuyan.com/share.html?key=eyJhdXRvQ29kZSI6IkZhbHNlIiwia2V5IjoiNzQxMDI5OGRkODIwNGM0ZTgyOWQ5Mjg2ZjNhZDcxMGEifQ== 提取码: 65ef

目录
相关文章
|
JavaScript
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
近日,Bert-vits2-v2.2如约更新,该新版本v2.2主要把Emotion 模型换用CLAP多模态模型,推理支持输入text prompt提示词和audio prompt提示语音来进行引导风格化合成,让推理音色更具情感特色,并且推出了新的预处理webuI,操作上更加亲民和接地气。
Bert-vits2-v2.2新版本本地训练推理整合包(原神八重神子英文模型miko)
|
算法 程序员
从《阴阳师》到《原神》,抽卡中的程序算法
收集类的抽卡手游,是玩家们喜闻乐见的一类游戏,他们背后又有哪些程序算法?我们一起来探讨
4692 1
从《阴阳师》到《原神》,抽卡中的程序算法
|
机器学习/深度学习
基于PaddleGAN精准唇形合成模型实现美女表白视频
基于PaddleGAN精准唇形合成模型实现美女表白视频
1877 0
基于PaddleGAN精准唇形合成模型实现美女表白视频
|
2月前
|
人工智能 监控 算法
《动漫游戏角色动作优化:手绘帧与物理模拟的协同突破实践》
本文围绕2D横版动漫格斗游戏开发,聚焦角色动作“手绘帧与物理模拟融合”的核心技术实践。针对动作僵硬、同步精度低、形变夸张难落地、性能瓶颈、风格与物理冲突、场景交互脱节六大问题,分别提出骨骼控制器联动、关键帧锚定、手绘形变模板适配、分层物理计算、动漫风格物理参数库、动作与场景物体绑定六大解决方案。通过差异化参数设置、动态层级切换等细节优化,既保留动漫审美张力,又解决技术痛点,还延伸应用至攀爬、游泳场景,为动漫游戏动作开发提供实用技术参考,兼顾效果、性能与用户体验。
1160 4
|
并行计算 API C++
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
Bert-vits2项目近期炸裂更新,放出了v2.0.2版本的代码,修正了存在于2.0先前版本的重大bug,并且重炼了底模,本次更新是即1.1.1版本后最重大的更新,支持了三语言训练及混合合成,并且做到向下兼容,可以推理老版本的模型,本次我们基于新版V2.0.2来本地推理原神小姐姐们的音色模型。
又欲又撩人,基于新版Bert-vits2V2.0.2音色模型雷电将军八重神子一键推理整合包分享
|
2月前
|
数据采集 存储 监控
构建定时监控系统,轻松爬取番茄小说最新章节
构建定时监控系统,轻松爬取番茄小说最新章节
|
1月前
|
人工智能 自然语言处理 监控
AI+RPA全解析:从技术原理到行业落地,一篇读懂智能自动化核心密码
AI+RPA融合人工智能与机器人流程自动化,正重塑企业效率。它无需改造系统,即可跨平台自动处理财务、人力、运营等重复性工作,提效降本,助力数字化转型。从发票核验到简历筛选,从数据采集到合规申报,实现“智能决策+自动执行”。实在Agent等新一代智能体更支持自然语言指令、自主规划任务,已在金融、制造、政务等领域规模化落地,成为企业提质增效的刚需工具。
|
2月前
|
机器学习/深度学习 监控 数据挖掘
Python 高效清理 Excel 空白行列:从原理到实战
本文介绍如何使用Python的openpyxl库自动清理Excel中的空白行列。通过代码实现高效识别并删除无数据的行与列,解决文件臃肿、读取错误等问题,提升数据处理效率与准确性,适用于各类批量Excel清理任务。
384 0
|
12月前
|
机器学习/深度学习 编解码 人工智能
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画
ColorFlow是由清华大学和腾讯ARC实验室共同推出的图像序列着色模型,通过检索增强、上下文学习和超分辨率技术,确保黑白图像序列的着色与参考图像颜色一致,适用于漫画、动画制作等工业应用。
1380 15
ColorFlow:腾讯和清华大学联合推出的图像序列着色模型,通过参考图像的颜色对黑白漫画进行着色生成彩色漫画