备案控制台

开发者社区人工智能文章正文

RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置

2021-10-29 318

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： RL之Q Learning：利用强化学习之Q Learning实现走迷宫—训练智能体走到迷宫(复杂迷宫)的宝藏位置

输出结果

设计思路

实现代码

from __future__ import print_function

import numpy as np

import time

from env import Env

from reprint import output

EPSILON = 0.1

ALPHA = 0.1

GAMMA = 0.9

MAX_STEP = 30

np.random.seed(0)

def epsilon_greedy(Q, state):

if (np.random.uniform() > 1 - EPSILON) or ((Q[state, :] == 0).all()):

action = np.random.randint(0, 4) # 0~3

else:

action = Q[state, :].argmax()

return action

e = Env()

Q = np.zeros((e.state_num, 4))

with output(output_type="list", initial_len=len(e.map), interval=0) as output_list:

for i in range(100):

e = Env()

while (e.is_end is False) and (e.step < MAX_STEP):

action = epsilon_greedy(Q, e.present_state)

state = e.present_state

reward = e.interact(action)

new_state = e.present_state

Q[state, action] = (1 - ALPHA) * Q[state, action] + \

ALPHA * (reward + GAMMA * Q[new_state, :].max())

e.print_map_with_reprint(output_list)

time.sleep(0.1)

for line_num in range(len(e.map)):

if line_num == 0:

output_list[0] = 'Episode:{} Total Step:{}, Total Reward:{}'.format(i, e.step, e.total_reward)

else:

output_list[line_num] = ''

time.sleep(2)

文章标签：

Python

机器学习/深度学习

关键词：

强化学习通义星尘

通义星尘迷宫

通义星尘强化学习

通义星尘训练

rl通义星尘

一个处女座的程序猿

目录

相关文章

楠竹11

|

2月前

|

机器学习/深度学习算法决策智能

北大领衔，多智能体强化学习研究登上Nature子刊

北京大学研究团队近日在《Nature》子刊上发布了一篇关于多智能体强化学习（MARL）的论文，提出了一种高效且可扩展的MARL框架，旨在解决大规模网络控制系统中的决策问题。该框架实现了智能体间的局部通信，减少了通信成本与计算复杂度，并在交通、电力及疫情防控等多个真实场景实验中，显著提升了决策性能。论文链接：https://www.nature.com/articles/s42256-024-00879-7。尽管该研究仍存局限，但为MARL的应用提供了新思路。

楠竹11

59 2 2

楠竹11

|

1月前

|

敏捷开发机器学习/深度学习数据采集

端到端优化所有能力，字节跳动提出强化学习LLM Agent框架AGILE

【10月更文挑战第23天】字节跳动研究团队提出AGILE框架，通过强化学习优化大型语言模型（LLM）在复杂对话任务中的表现。该框架将LLM作为核心决策模块，结合记忆、工具和专家咨询模块，实现智能体的自我进化。实验结果显示，AGILE智能体在ProductQA和MedMCQA数据集上优于GPT-4。

楠竹11

118 4 4

土木林森

|

2月前

|

Python 机器学习/深度学习人工智能

手把手教你从零开始构建并训练你的第一个强化学习智能体：深入浅出Agent项目实战，带你体验编程与AI结合的乐趣

【10月更文挑战第1天】本文通过构建一个简单的强化学习环境，演示了如何创建和训练智能体以完成特定任务。我们使用Python、OpenAI Gym和PyTorch搭建了一个基础的智能体，使其学会在CartPole-v1环境中保持杆子不倒。文中详细介绍了环境设置、神经网络构建及训练过程。此实战案例有助于理解智能体的工作原理及基本训练方法，为更复杂应用奠定基础。首先需安装必要库： ```bash pip install gym torch ``` 接着定义环境并与之交互，实现智能体的训练。通过多个回合的试错学习，智能体逐步优化其策略。这一过程虽从基础做起，但为后续研究提供了良好起点。

土木林森

168 4 4

手把手教你从零开始构建并训练你的第一个强化学习智能体：深入浅出Agent项目实战，带你体验编程与AI结合的乐趣

土木林森

|

2月前

|

机器学习/深度学习人工智能算法

打造你的超级Agent智能体——在虚拟迷宫中智斗未知，解锁AI进化之谜的惊心动魄之旅！

【10月更文挑战第5天】本文介绍了一个基于强化学习的Agent智能体项目实战，通过控制Agent在迷宫环境中找到出口来完成特定任务。文章详细描述了环境定义、Agent行为及Q-learning算法的实现。使用Python和OpenAI Gym框架搭建迷宫环境，并通过训练得到的Q-table测试Agent表现。此项目展示了构建智能体的基本要素，适合初学者理解Agent概念及其实现方法。

土木林森

103 9 9

楠竹11

|

2月前

|

机器学习/深度学习人工智能安全

北大领衔，多智能体强化学习研究登上Nature子刊

【10月更文挑战第1天】近日，北京大学领导的研究团队在《Nature》子刊上发表了一篇关于多智能体强化学习的论文，提出了一种高效且可扩展的框架，解决了大规模网络控制系统中的决策问题。该框架通过局部通信避免了集中式和独立学习的缺点，在交通、电力等领域的实验中展现了卓越性能。然而，其在更复杂系统中的效果及计算复杂度仍需进一步验证。论文链接：https://www.nature.com/articles/s42256-024-00879-7。

楠竹11

46 3 3

楠竹11

|

4月前

|

人工智能自然语言处理算法

可自主进化的Agent？首个端到端智能体符号化训练框架开源了

【8月更文挑战第13天】近年来，AI领域在构建能自主完成复杂任务的智能体方面取得重大突破。这些智能体通常基于大型语言模型，可通过学习适应环境。为简化设计流程，AIWaves Inc.提出智能体符号化学习框架，使智能体能在数据中心模式下自我优化，以推进通向通用人工智能的道路。该框架将智能体视作符号网络，利用提示、工具及其组合方式定义可学习的权重，并采用自然语言模拟反向传播和梯度下降等学习过程，指导智能体的自我改进。实验显示，此框架能有效促进智能体的自主进化。尽管如此，该框架仍面临高质量提示设计及计算资源需求高等挑战。论文详情参见：https://arxiv.org/pdf/2406.18532。

楠竹11

182 58 58

风吹落叶花飘荡

|

4月前

|

机器学习/深度学习存储定位技术

强化学习Agent系列（一）——PyGame游戏编程，Python 贪吃蛇制作实战教学

本文是关于使用Pygame库开发Python贪吃蛇游戏的实战教学，介绍了Pygame的基本使用、窗口初始化、事件处理、键盘控制移动、以及实现游戏逻辑和对象交互的方法。

风吹落叶花飘荡

90 1 1

LDG_AGI

|

4月前

|

机器学习/深度学习人工智能缓存

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

AI智能体研发之路-模型篇（二）：DeepSeek-V2-Chat 训练与推理实战

LDG_AGI

632 0 0

LDG_AGI

|

4月前

|

人工智能物联网异构计算

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

AI智能体研发之路-模型篇（一）：大模型训练框架LLaMA-Factory在国内网络环境下的安装、部署及使用

LDG_AGI

299 0 0

小空门123-30335

|

5月前

|

机器学习/深度学习算法 Python

强化学习（Reinforcement Learning, RL）** 是一种机器学习技术，其中智能体（Agent）通过与环境（Environment）交互来学习如何执行决策以最大化累积奖励。

强化学习（Reinforcement Learning, RL）** 是一种机器学习技术，其中智能体（Agent）通过与环境（Environment）交互来学习如何执行决策以最大化累积奖励。

小空门123-30335

87 0 0

热门文章

最新文章

将ssh key添加到ssh-agent使用命令ssh-add ~/.ssh/id_rsa结果报错

aix puppet agent

理解一个名词：用户代理(user agent)

SQL SERVER 2014 Agent服务异常停止案例

JPDA 架构研究5 - Agent利用环境指针访问VM (内存管理篇）

Script:收集Enterprise Manager Grid Control/Agent/Database Control诊断信息

SSH无密码登陆Agent admitted failure to sign using the key

【AI Agent系列】【阿里AgentScope框架】0. 快速上手：AgentScope框架简介与你的第一个AgentScope程序

08【在线日志分析】之Flume Agent(聚合节点) sink to kafka cluster

智能体-Agent能力升级！新增Assistant API & Tools API服务接口

揭秘Java Agent技术：解锁Java工具开发的新境界

Agent AI智能体的未来

【AIGC】LangChain Agent 最新教程详解及示例学习

【AGI】智能体简介及场景分析

【AI智能体】SuperAGI-开源AI Agent 管理平台

Llama3 中文通用Agent微调模型来啦！（附手把手微调实战教程）

android-agent-web中js-bridge案例

关于多智能体应用，这届年轻人这么做

变革来袭！多Agent框架MuAgent带你解锁代码开发新姿势

相关课程

更多

南瓜书《机器学习公式推导》

机器学习基础与回归算法

神经网络概览及算法详解

计算机视觉类比赛汇总

神经网络与深度学习

【深度有趣】上海交大博士带你玩转GAN生成对抗网络

相关电子书

更多

深度学习论文实现：空间变换网络-第一部分

概率图模型

纯干货 | 机器学习中梯度下降法的分类及对比分析

相关实验场景

更多

使用PAI-快速开始，低代码实现大语言模型微调和部署

如何快速创建插件agent

快速体验智能体API应用

欧拉图的构造性证明与算法实现

使用 Fleet 管理 Elastic Agent 监控应用

推荐系统入门之使用ALS算法实现打分预测

下一篇

阿里云无影云电脑免费试用，最长可试用3个月