图解强化学习 |手算Sarsa算法-阿里云开发者社区

图解强化学习 |手算Sarsa算法

2026-05-29 30

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS DuckDB + QuickBI 企业套餐，8核32GB + QuickBI 专业版

简介： SARSA是一种基于价值的在线无模型强化学习算法，通过Q表存储状态-动作价值，采用ε-贪心策略与时序差分更新（TD），始终依据真实执行动作而非最优动作进行学习。其训练保守稳定、安全性高，但探索性较弱，且在大状态动作空间下易出现Q表爆炸问题。（239字）

Sarsa的基础认识

SARSA 属于基于价值的在线无模型强化学习算法。仅通过学习动作价值指导决策，无法直接优化

动作策略，不适用于大范围连续动作场景。它依靠 Q 表存储价值，基于当前回合的真实动作进行

时序差分更新，同样采用 ε- 贪心策略平衡探索与利用，依靠折扣因子、学习率更新参数，单步交

互即可迭代；算法训练更保守、稳定性高，但探索性偏弱，且状态动作空间过大时同样存在 Q 表

爆炸问题。

基础Sarsa结构

SARSA依据动作价值函数结合ε-贪心策略完成决策。当前处于状态s1，存在动作a1、a2，查表得

到对应Q值，通过ε-贪心策略选择当前要执行的动作。执行动作后切换至新状态s2，再用ε-贪心策

略选出s2状态下的实际动作，全程循环采样真实动作、执行交互**的决策流程，逐步完成训练。

Q-learning：选最大 Q 值（贪心最优），大胆激进

SARSA：选实际执行动作（ε 贪心随机），保守稳定

SARSA 基于时序差分完成 Q 值更新。智能体在状态s1按贪心选出动作

a1，执行后获得奖励r并进入状态s1，再用相同策略选出下一动作a2，结合两组状态与

动作的 Q 值迭代更新Q(s1, a2)，持续循环该过程直至训练结束。

手动计算过程

SARSA 算法的手算过程首先在当前状态 s1下查询 Q 表，根据动作价值函数得到各动作对应的 Q

值，例如 Q(s1，a1）=−2、Q(s1,a2）=1。随后智能体采用 ε-贪心策略进行动作选择，即以较大

概率 1−ε 选择当前 Q 值较高的动作，以较小概率 ε 进行随机探索。在本例中，智能体最终选择执

行动作 a2。执行动作后，环境返回即时奖励 rt+1=3，同时系统由状态 s1转移至新状态 s2。到达

新状态后，SARSA 并不会直接选取最大 Q 值对应动作，而是继续使用 ε-贪心策略选择下一步将真

实执行的动作。假设在状态 s2中虽然 Q(s2,a2)=2 大于 Q(s2,a1)=0.5，但由于探索机制，本轮实际

选择执行动作 a1。此时，SARSA 使用真实执行动作对应的价值来更新 Q 值，并依据更新公式

完成参数更新。将本例中的数值代入，即：

因此，更新后 Q(s1,a2) 从 1 提升至 1.245。随后智能体继续在新状态中重复“选择动作—执行动作

—获得奖励—更新 Q 值”的循环，直至任务结束。整个过程中，SARSA 始终依据下一状态中真实

执行的动作进行学习，而不是直接采用最大 Q 值，因此策略更新更加保守、稳定，具有较好的安

全性与鲁棒性。

图解强化学习 |手算Sarsa算法