45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4

/【百战程序员】AI算法工程师就业班-带源码课件/31、【加课】强化学习【新增】/章节4：ActorCritic(A3C)/45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4

迅雷云盘视频 | 44.49 MB 2025/10/20 12:30:00

文件目录

文件名	大小	类型	操作
39：ActorCritic原理_把PG和QLearning结合起来.mp4	50.02 MB	视频	访问链接
41：代码实战_ActorCritic与环境交互.mp4	48.29 MB	视频	访问链接
40：AdvantageActorCritic_共享参数和修改reward技巧.mp4	44.69 MB	视频	访问链接
43：代码实战_详解Critic网络构建及训练.mp4	50.74 MB	视频	访问链接
42：代码实战_Actor网络构建及训练.mp4	33.46 MB	视频	访问链接
44：A3C架构和训练流程.mp4	37.52 MB	视频	访问链接
46：代码实战_A3C_讲解Coordinator调度多线程运算.mp4	27.84 MB	视频	访问链接
47：代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4	32.62 MB	视频	访问链接
48：代码实战_A3C_增加actor探索性用到熵_定义worker正太分布抽样和求梯度的逻辑.mp4	32.1 MB	视频	访问链接
49：代码实战_A3C_定义AC网络结构_定义worker拉取参数和更新全局网络参数的逻辑.mp4	35.52 MB	视频	访问链接
51：代码实战_A3C_讲解线程中worker和环境交互.mp4	45.16 MB	视频	访问链接
52：代码实战_A3C_讲解线程中worker和GlobalNet交互_代码运行效果展示.mp4	41.57 MB	视频	访问链接
50：代码实战_A3C_结合流程图分三点总结前面讲的代码.mp4	35.8 MB	视频	访问链接
章节4：ActorCritic(A3C).txt	704 B	文档	访问链接

注意事项

本链接 45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4 是通过搜索引擎爬虫程序自动收集迅雷云盘的公开分享链接，以非人工方式自动生成，SOSO云盘本身不储存、复制、传播、控制编辑任何网盘资源文件，也不提供下载服务，其链接跳转至迅雷网盘，文件的有效性和安全性需要您自行判断。

导航菜单

45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4

文件目录

注意事项

相关资源

45：Pendulum环境_根据网络预测的μ和σ得到连续型的action值.mp4

20：代码实战DQN_训练阶段得到Q网络的预测值和真实值.mp4

18：FasterRCNN代码_根据RPN网络得到校正后的预测的框_01.mp4

19：FasterRCNN代码_根据RPN网络得到校正后的预测的框_02.mp4

47：代码实战_A3C_定义Worker计算loss的逻辑_针对连续型的action提高actor探索性.mp4

20：Keras介绍_以及不同项目调用不同的python环境和CUDA环境.mp4

1.5.1 课时5离散型二维变量与连续型二维变量上.mp4

51.一维连续型的函数的分布、二维离散型随机变量 2(1).mp4

51.一维连续型的函数的分布、二维离散型随机变量 1(1).mp4

29：策略梯度PG_对比基于值和基于策略网络的区别.mp4