图解强化学习 |手算Sarsa算法

本文涉及的产品
RDS DuckDB + QuickBI 企业套餐,8核32GB + QuickBI 专业版
简介: SARSA是一种基于价值的在线无模型强化学习算法,通过Q表存储状态-动作价值,采用ε-贪心策略与时序差分更新(TD),始终依据真实执行动作而非最优动作进行学习。其训练保守稳定、安全性高,但探索性较弱,且在大状态动作空间下易出现Q表爆炸问题。(239字)

 Sarsa的基础认识

SARSA 属于基于价值的在线无模型强化学习算法。仅通过学习动作价值指导决策,无法直接优化

动作策略,不适用于大范围连续动作场景。它依靠 Q 表存储价值基于当前回合的真实动作进行

时序差分更新,同样采用 ε- 贪心策略平衡探索与利用,依靠折扣因子、学习率更新参数,单步交

互即可迭代;算法训练更保守、稳定性高,但探索性偏弱,且状态动作空间过大时同样存在 Q 表

爆炸问题。

image.gif


基础Sarsa结构

Sarsa算法的决策

SARSA依据动作价值函数结合ε-贪心策略完成决策。当前处于状态s1,存在动作a1、a2,查表得

到对应Q值,通过ε-贪心策略选择当前要执行的动作。执行动作后切换至新状态s2,再用ε-贪心策

略选出s2状态下的实际动作,全程循环采样真实动作、执行交互**的决策流程,逐步完成训练。

image.gif

Sarsa算法的更新

                          Q-learning:选最大 Q 值(贪心最优),大胆激进

                          SARSA:选实际执行动作(ε 贪心随机),保守稳定

SARSA 基于时序差分完成 Q 值更新。智能体在状态s1按贪心选出动作

a1,执行后获得奖励r并进入状态s1,再用相同策略选出下一动作a2,结合两组状态与

动作的 Q 值迭代更新Q(s1, a2),持续循环该过程直至训练结束。

image.gif


手动计算过程

SARSA 算法的手算过程首先在当前状态 s1下查询 Q 表,根据动作价值函数得到各动作对应的 Q

值,例如 Q(s1,a1)=−2、Q(s1,a2)=1。随后智能体采用 ε-贪心策略进行动作选择,即以较大

概率 1−ε 选择当前 Q 值较高的动作,以较小概率 ε 进行随机探索。在本例中,智能体最终选择执

行动作 a2。执行动作后,环境返回即时奖励 rt+1=3,同时系统由状态 s1转移至新状态 s2。到达

新状态后,SARSA 并不会直接选取最大 Q 值对应动作,而是继续使用 ε-贪心策略选择下一步将真

实执行的动作。假设在状态 s2中虽然 Q(s2,a2)=2 大于 Q(s2,a1)=0.5,但由于探索机制,本轮实际

选择执行动作 a1。此时,SARSA 使用真实执行动作对应的价值来更新 Q 值,并依据更新公式

image.gif

完成参数更新。将本例中的数值代入,即:

image.gif

因此,更新后 Q(s1,a2) 从 1 提升至 1.245。随后智能体继续在新状态中重复“选择动作—执行动作

—获得奖励—更新 Q 值”的循环,直至任务结束。整个过程中,SARSA 始终依据下一状态中真实

执行的动作进行学习,而不是直接采用最大 Q 值,因此策略更新更加保守、稳定,具有较好的安

全性与鲁棒性。

image.gif


目录
相关文章
|
15小时前
|
机器学习/深度学习 自然语言处理 PyTorch
PyTorch深度学习实战 |手算ViT(Vision Transformer)模型
ViT将图像分块为Patch,经卷积嵌入成Token序列,加入CLS Token和位置编码后输入Transformer Encoder。其核心是让简单分类头依赖Encoder提炼的强特征,凸显Transformer的全局特征提取能力,奠定多模态大模型基础。(239字)
35 0
|
15小时前
|
监控 JavaScript 前端开发
基于 JavaScript 驱动的 PureLogs 变种钓鱼攻击机理与防御研究
本文剖析JavaScript驱动的PureLogs无文件钓鱼攻击:以HTML走私投递、PureCrypter内存加载、多维窃密为特征,揭示其反沙箱、强混淆、加密外连等对抗技术。提供恶意脚本、YARA规则、终端防护等工程化防御方案,倡导从特征匹配转向行为语义与数据流转的多维关联检测。(239字)
24 0
|
15小时前
|
人工智能 自然语言处理 决策智能
AI英语智能体的开发
AI英语智能体是教育科技前沿方向,突破传统背单词与聊天框局限,具备角色感知、长期记忆、教学逻辑与主动引导能力,融合记忆机制、RAG知识管控、工具调用及全双工语音等核心技术,打造真正懂学生、会教学、能陪练的智能外教。(239字)
|
15小时前
|
机器学习/深度学习 数据可视化 机器人
PyTorch深度学习实战 |手算​​自编码Autoencoder
自编码器是一种无监督神经网络,通过编码器将数据压缩为低维潜在表示,再由解码器重建原始输入。其核心价值在于自动提取关键特征、实现降维与数据去噪,广泛应用于图像重建、特征学习和可视化分析等领域。
31 1
|
15小时前
|
机器学习/深度学习 存储 编解码
PyTorch深度学习实战 | 手算卷积网络(Resnet-18)
ResNet-18是解决深层网络梯度消失与退化问题的经典模型,核心在于残差连接(Shortcut):让输入X直接跳跃传递,与卷积学习的残差F(X)相加(F(X)+X),实现恒等映射。其含4个stage、18层可训练层,每个BasicBlock由两个3×3卷积+BN+ReLU构成,并通过1×1卷积适配尺寸/通道差异,显著提升深层网络训练稳定性与性能。(239字)
27 0
|
15小时前
|
机器学习/深度学习 PyTorch 算法框架/工具
PyTorch深度学习实战 | 手算生成对抗网络GAN
GAN(生成对抗网络)是一种深度学习模型,由生成器与判别器构成对抗训练框架:生成器学习伪造逼真数据,判别器则努力区分真假。二者博弈迭代,最终生成器可产出以假乱真的高质量样本,广泛应用于图像生成、数据增强等领域。
27 0
|
15小时前
|
运维 API 数据库
哪个IP查询工具更新更及时?实测对比:日更库 vs周更/月更库
IP归属地动态变化,周/月更库易过时,导致广告错投、风控失效。本文实测对比发现:日更商业库新IP段24小时内精准入库,而月更纯真库等严重滞后。附三大验证方法——跟踪新IP段、多工具交叉比对、WHOIS事实核查。(239字)
29 0
|
15小时前
|
机器学习/深度学习 存储 算法
图解强化学习 |手算Q-learning
Q-learning是一种基于价值的离线无模型强化学习算法,通过Q表存储状态-动作价值,利用时序差分和ε-贪心策略迭代更新,实现最优策略学习;但对连续动作适应性差,大规模状态空间易致Q表爆炸。(239字)
27 0
|
14小时前
|
机器学习/深度学习 数据可视化 PyTorch
PyTorch深度学习实战 |手算​​变分自编码器(VAE)
本文详解变分自编码器(VAE)原理:指出传统自编码器因潜在空间无序而无法生成新图像;VAE通过引入概率建模,用高斯分布近似后验,并结合重构损失与KL散度优化,使潜在空间连续可采样,从而实现可控图像生成。含公式推导、重参数化技巧及完整代码实现。(239字)
32 0
|
13小时前
|
自然语言处理 监控 机器人
企业级Agent解决方案盘点:瓴羊五大agent落地应用场景解析
2025年,瓴羊依托AgentOne统一框架,在营销、客服、BI分析、数据治理等五大场景实现企业级Agent规模化落地。通过多智能体协同、跨系统调度与业务闭环验证,助力企业破解数据孤岛、实时决策与安全合规难题,显著提升运营效率与商业价值。(239字)