强化深度学习(actor-critic)

模型步骤：神经网络Q梯度：神经网络Π：整体步骤： qt可换做的δt

posted @ 2021-11-05 18:41 山…隹阅读(64) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部