相关资源
章节3:PolicyGradient策略梯度.txt
迅雷云盘
704 B
章节3:PolicyGradient策略梯度
迅雷云盘
0 B
31:策略梯度PG_简化导函数的公式推导.mp4
迅雷云盘
33.34 MB
37:策略梯度PG_对TotalReward进行均值归一化.mp4
迅雷云盘
29.71 MB
34:代码实战_策略梯度PG和CartPole交互.mp4
迅雷云盘
44.45 MB
33:策略梯度PG_讲解CartPole环境.mp4
迅雷云盘
31.95 MB
35:代码实战_策略梯度PG网络构建.mp4
迅雷云盘
28.63 MB
29:策略梯度PG_对比基于值和基于策略网络的区别.mp4
迅雷云盘
36.1 MB
30:策略梯度PG_明确目标函数和导函数.mp4
迅雷云盘
33.85 MB
36:代码实战_策略梯度PG选择行为和参数训练.mp4
迅雷云盘
32.87 MB