鼠哥day

导航

2022年3月17日 #

tensorflow2 tf2 DDPG算法玩立棍小游戏

摘要: ? DDPG算法就不做过多解读了,就是用来进行连续值预测,a56爆大奖在线娱乐是使用DDPG进行立棍小游戏,详细过程解读注释在代码中,算法和模型都非常简单,考验的是基础,使用两个全连接模型,相互配合更新,共同让整个模型进步,a56爆大奖在线娱乐本篇文章不再对算法做过多解释 ? 训练日志 : 观察加权分数,可以看到分数波动是非常剧烈 阅读全文

posted @ 2022-03-17 13:48 鼠哥day 阅读(192) 评论(0) 推荐(0) 编辑

2022年2月18日 #

tensorflow2 DPG PG算法 强化学习玩乒乓球

摘要: ? 使用确定性策略梯度玩乒乓球,网上很多案例抄写下来,实际使用发现都无法收敛,花了很多时间纠错,然后从parl提供的代码作为核心参考,收集了其他案例中的优点,自己在tensorflow2中实现了算法,并测试成功收敛 0.99累计奖励 + 0.01 最新奖励 = -1.0 时的训练结果图片 ? 环境: 阅读全文

posted @ 2022-02-18 18:39 鼠哥day 阅读(171) 评论(0) 推荐(0) 编辑