集合三大类无模型强化学习算法，BAIR开源RL代码库rlpyt

发布时间：2019-10-10 15:06:57 所属栏目：经验来源：机器之心编译

导读：近日，BAIR 开源强化学习研究代码库 rlpyt，首次包含三大类无模型强化学习算法，并提出一种新型数据结构。 2013 年有研究者提出使用深度强化学习玩游戏，之后不久深度强化学习又被应用于模拟机器人控制，自此以后大量新算法层出不穷。其中大部分属于无模型

rlpyt 是 accel_rl 的修订版本，accel_rl 使用 Theano 尝试在 Atari 领域中扩展强化学习，详见论文《Accelerated Methods for Deep Reinforcement Learning》。对于深度学习和强化学习中的批大小扩展的进一步研究，参见 OpenAI 的报告（https://arxiv.org/abs/1812.06162）。rlpyt 和 accel_rl 最初都受 rllab 的启发。

其他已发布的研究代码库包括 OpenAI 基线和 Dopamine，二者都使用的是 Tensorflow 框架，都没有优化到 rlpyt 的程度，也不包含三类算法。基于 Ray 构建的 Rllib 采取不同的方法执行分布式计算，但可能把小实验复杂化。Facebook Horizon 提供了一组算法，主要关注大规模生产级应用。总之，rlpyt 提供更多算法的模块化实现以及并行化的模块化基础架构，是支持广泛研究应用的工具箱。

结论

BAIR 在相关博客中表示，rlpyt 可以促进对现有深度强化学习技术的便捷使用，并作为开启新研究的起点。例如，rlpyt 没有明确解决一些更先进的话题，如元学习、基于模型的强化学习和多智能体强化学习，但是 rlpyt 提供的可用代码可能对于加速这些领域的发展有所帮助。

（编辑：辽源站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

5/5

首页