强化学习概述与基础
前言
2016年AlphaGo赢了与人类的围棋比赛。 在一阶段人工智能迅速火热起来,这是对新闻有所稍微知道的人都有了解的,在这个背后到底是什么推动AlphaGo强大的棋力的,这不得不来说一下今天主题:强化学习
一、强化学习概述
强化学习(Reinforcement Learning, RL),又称奖励学习、评价学习或增强学习,是机器学习的范式和方法论之一,他描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
比如:一个走迷宫的机器人。机器人在观察周围环境,根据他的观测来决定自己如何继续走下一步。错误的路线让他浪费时间,正确路线可以成功走出迷宫。在这个例子中,浪费时间就是对这个机器人惩罚,当然走出去就是对机器人的奖励了。
可以发现强化学习系统中有两个关键的因素:奖励和策略
智能机在行动后对结果好的就奖励,错的就惩罚,策略就是观测环境采取不同的行动。智能机在不停的学习,在学习中不停的改变策略。以最快最好的走出迷宫。这就是强化学习。
二、强化学习与机器学习
强化学习是和监督学习,非监督学习并列的第三种机器学习方法
强化学习来和监督学习区别是它是没有监督学习已经准备好的训练数据输出值的。强化学习只有奖励值,但是这个奖励值和监督学习的输出值不一样,它不是事先给出的,而是延后给出的,比如上面的例子里走路摔倒了才得到大脑的奖励值。同时,强化学习的每一步与时间顺序前后关系紧密。而监督学习的训练数据之间一般都是独立的,没有这种前后的依赖关系。
再来看看强化学习和非监督学习的区别。也还是在奖励值这个地方。非监督学习是没有输出值也没有奖励值的,它只有数据特征。同时和监督学习一样,数据之间也都是独立的,没有强化学习这样的前后依赖关系。
三、强化学习应用
在人工智能迅速火热这一段时间中。基于强化学习的人工智能已经有许多成功的案例的
- 电动游戏:主要指的是当年打的电动游戏,玩家根据屏幕画面,来操作游戏,比如星际争霸,吃豆子这样的
- 棋盘游戏:围棋,象棋,五子棋,军旗
- 自动驾驶:自动驾驶的问题是控制方向盘,油门,刹车等,其可以在电脑虚拟环境中进行模拟学习,最后可以明确的达到目的。
四、强化学习主要算法
- Sarsa算法
- Q学习算法
- 基于经验回放的DQN算法
- QAC算法
- 蒙特卡罗树搜索算法
等等
这一部份只是简单列举一下,详情可以参考李宏毅老师的强化学习课程
最后。如果文章中有不足之处,请务必指出,一定迅速改正。谢谢