图解强化学习 |手算PG算法
PG(Policy Gradient)策略梯度算法直接优化策略网络,输出动作概率而非价值,适用于离散/连续动作空间。需整回合采样后计算折扣回报Gₜ,以-logπ·G为损失函数更新参数,提升高回报动作概率。可引入基线(如平均回报)构建优势函数,提升训练稳定性与效率。(239字)
Claude 官方的 Agent Memory 管理实践:为什么用文件系统保存记忆?
现在 Claude Managed Agents(可在 Claude Platform 上使用)有了记忆(memory)能力。这些记忆以文件的形式保存下来,供单个 Agent 或者多个 Agent 在不同会话间继续访问和使用。简单来说,Agent 不再“只活在当下”,能从过去执行任务的经验中学习。用户也可以通过 API 导出记忆,方便后续查看或使用。
图解强化学习 |手算Actor-Critic
Actor-Critic是一种融合策略优化(Actor)与价值评估(Critic)的强化学习算法:Actor负责选动作,Critic实时打分(如TD误差),实现单步更新、低方差、高效率,兼顾离散/连续动作空间。(239字)
图解强化学习 |手算DDPG
DDPG(深度确定性策略梯度)是一种面向连续动作空间的Actor-Critic强化学习算法。它采用4网络结构(Actor/Critic及其对应目标网络),结合经验回放与软更新,通过确定性策略梯度优化策略,广泛应用于机器人控制、自动驾驶等场景。(239字)