鼠哥day

导航

2022年2月18日 #

tensorflow2 DPG PG算法 强化学习玩乒乓球

摘要: ? 使用确定性策略梯度玩乒乓球,网上很多案例抄写下来,实际使用发现都无法收敛,花了很多时间纠错,然后从parl提供的代码作为核心参考,收集了其他案例中的优点,自己在tensorflow2中实现了算法,并测试成功收敛 0.99累计奖励 + 0.01 最新奖励 = -1.0 时的训练结果图片 ? 环境: 阅读全文

posted @ 2022-02-18 18:39 鼠哥day 阅读(171) 评论(0) 推荐(0) 编辑