大部分的强化学习环境都是确定性的,那么如何解决训练过程中环境的确定性与实际问题要求的随机性之间的差距呢?
提出一个问题:
大部分的强化学习环境都是确定性的,那么如何解决训练过程中环境的确定性与实际问题要求的随机性之间的差距呢
众所周知的问题,现在的强化学习环境几乎都是确定性的,比如:atari这样的游戏环境,都是确定性的,如果你确定初始状态和动作序列,那么你所获得的最终环境状态一定是相同的,但是在仿真环境下的这种确定性和实际现实目标问题的不确定性(随机性)是有着差距的,这也就是说我们如果在仿真环境(确定性的游戏环境)下开发出的强化学习算法最终可能在真实的随机性真实问题中表现的很差,而这个问题该如何解决呢。
在看atari的gym论文发现了这个解决方法,那就是repeat_action_probability,也就是gym中的sticky action,也就是gym atari中的0.25的上次执行动作在本次执行动作中出现的概率。
PS:
一些大型游戏,如:Minecraft这样的游戏,由于强化学习算法和游戏环境的交互是异步的,由此可以获得随机的问题环境的表现,但是如果我们的算法对环境的状态相应时间极端就可以反馈回执行动作,那么这种情况下像Minecraft这样的游戏环境也会近似的为确定性游戏环境。
本博客是博主个人学习时的一些记录,不保证是为原创,个别文章加入了转载的源地址,还有个别文章是汇总网上多份资料所成,在这之中也必有疏漏未加标注处,如有侵权请与博主联系。
如果未特殊标注则为原创,遵循 CC 4.0 BY-SA 版权协议。