Python强化学习实战应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

强化学习是一种重要的机器学习方法，在智能体及分析预测等领域有许多应用。本书共13章，主要包括强化学习的各种要素，即智能体、环境、策略和模型以及相应平台和库；Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置；马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系，动态规划的基本概念；蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法；时间差分学习、预测、离线/在线策略控制等；多臂赌博机问题以及相关的各种探索策略方法；深度学习的各种基本概念和RNN、LSTM、CNN等神经网络；深度强化学习算法DQN，以及双DQN和对抗网络体系结构等改进架构；DRQN以及DARQN；A3C网络的基本工作原理及架构；策略梯度和优化问题；很后介绍了强化学习的很新进展以及未来发展。

作者简介

苏达桑·拉维尚迪兰（Sudharsan Ravichandiran），是一位数据科学家、研究员、人工智能爱好者以及YouTuber，获得了Anna大学信息技术学生学位。他的研究领域包括深度学习和强化学习的实现，其中包括自然语言处理和计算机视觉。他曾是一名自由职业的网页开发人员和设计师，所设计开发的网站屡获殊荣，同时也热衷于开源，擅长解答堆栈溢出问题。

译者序
原书前言
第1章强化学习简介//1
1.1 什么是强化学习//1
1.2 强化学习算法//2
1.3 强化学习与其他机器学习范式的不同//3
1.4 强化学习的要素//3
1.4.1 智能体//3
1.4.2 策略函数//3
1.4.3 值函数//4
1.4.4 模型//4
1.5 智能体环境接口//4
1.6 强化学习的环境类型//5
1.6.1 确定性环境//5
1.6.2 随机性环境//5
1.6.3 接近可观测环境//5
1.6.4 部分可观测环境//5
1.6.5 离散环境//5
1.6.6 连续环境//5
1.6.7 情景和非情景环境//5
1.6.8 单智能体和多智能体环境//6
1.7 强化学习平台//6
1.7.1 OpenAI Gym和Universe//6
1.7.2 DeepMind Lab//6
1.7.3 RL-Glue//6
1.7.4 Project Malmo//6
1.7.5 VizDoom//6
1.8 强化学习的应用//7
1.8.1 教育//7
1.8.2 医疗和健康//7
1.8.3 制造业//7
1.8.4 库存管理//7
1.8.5 金融//7
1.8.6 自然语言处理和计算机视觉//7
1.9 小结//8
1.10 问题//8
1.11 扩展阅读//8
第2章从OpenAI和TensorFlow入门//9
2.1 计算机设置//9
2.1.1 安装Anaconda//9
2.1.2 安装Docker//10
2.1.3 安装OpenAI Gym和Universe//11
2.2 OpenAI Gym//13
2.2.1 基本模拟//13
2.2.2 训练机器人行走//14
2.3 OpenAI Universe//16
2.3.1 构建一个视频游戏机器人//16
2.4 TensorFlow//20
2.4.1 变量、常量和占位符//20
2.4.2 计算图//21
2.4.3 会话//21
2.4.4 TensorBoard//22
2.5 小结//25
2.6 问题//25
2.7 扩展阅读//25
第3章马尔可夫决策过程和动态规划//26
3.1 马尔可夫链和马尔可夫过程//26
3.2 MDP//27
3.2.1 奖励和回报//28
3.2.2 情景和连续任务//28
3.2.3 折扣因数//28
3.2.4 策略函数//29
3.2.5 状态值函数//29
3.2.6 状态—行为值函数（Q函数）//30
3.3 Bellman方程和很优性//30
3.3.1 推导值函数和Q函数的Bellman方程//31
3.4 求解Bellman方程//32
3.4.1 动态规划//32
3.5 求解冰冻湖问题//38
3.5.1 值迭代//39
3.5.2 策略迭代//43
3.6 小结//45
3.7 问题//45
3.8 扩展阅读//46
第4章基于蒙特卡罗方法的博弈游戏//47
4.1 蒙特卡罗方法//47
4.1.1 利用蒙特卡罗方法估计π值//47
4.2 蒙特卡罗预测//50
4.2.1 首次访问蒙特卡罗//51
4.2.2 每次访问蒙特卡罗//52
4.2.3 利用蒙特卡罗方法玩二十一点游戏//52
4.3 蒙特卡罗控制//58
4.3.1 蒙特卡罗探索开始//58
4.3.2 在线策略的蒙特卡罗控制//59
4.3.3 离线策略的蒙特卡罗控制//61
4.4 小结//62
4.5 问题//62
4.6 扩展阅读//63
第5章时间差分学习//64
5.1 时间差分学习//64
5.2 时间差分预测//64
5.3 时间差分控制//66
5.3.1 Q学习//66
5.3.2 SARSA//72
5.4 Q学习和SARSA之间的区别//77
5.5 小结//77
5.6 问题//78
5.7 扩展阅读//78
第6章 MAB问题//79
6.1 MAB问题//79
6.1.1 ε贪婪策略//80
6.1.2 Softmax探索算法//82
6.1.3 UCB算法//83
6.1.4 Thompson采样算法//85
6.2 MAB的应用//86
6.3 利用MAB识别正确的广告标识//87
6.4 上下文赌博机//89
6.5 小结//89
6.6 问题//89
6.7 扩展阅读//89
第7章深度学习基础//90
7.1 人工神经元//90
7.2 ANN//91
7.2.1 输入层//92
7.2.2 隐层//92
7.2.3 输出层//92
7.2.4 激活函数//92
7.3 深入分析ANN//93
7.3.1 梯度下降//95
7.4 TensorFlow中的神经网络//99
7.5 RNN//101
7.5.1 基于时间的反向传播//103
7.6 LSTM RNN//104
7.6.1 利用LSTM RNN生成歌词//105
7.7 CNN//108
7.7.1 卷积层//109
7.7.2 池化层//111
7.7.3 全连接层//112
7.7.4 CNN架构//112
7.8 利用CNN对时尚产品进行分类//113
7.9 小结//117
7.10 问题//117
7.11 扩展阅读//118
第8章基于DQN的Atari游戏//119
8.1 什么是DQN//119
8.2 DQN的架构//120
8.2.1 卷积网络//120
8.2.2 经验回放//121
8.2.3 目标网络//121
8.2.4 奖励裁剪//122
8.2.5 算法理解//122
8.3 构建一个智能体来玩Atari游戏//122
8.4 双DQN//129
8.5 优先经验回放//130
8.6 对抗网络体系结构//130
8.7 小结//131
8.8 问题//132
8.9 扩展阅读//132
第9章基于DRQN玩Doom游戏//133
9.1 DRQN//133
9.1.1 DRQN架构//134
9.2 训练一个玩Doom游戏的智能体//135
9.2.1 基本的Doom游戏//135
9.2.2 基于DRQN的Doom游戏//136
9.3 DARQN//145
9.3.1 DARQN架构//145
9.4 小结//145
9.5 问题//146
9.6 扩展阅读//146
第10章 A3C网络//147
10.1 A3C//147
10.1.1 异步优势行为者//147
10.1.2 A3C架构//148
10.1.3 A3C的工作原理//149
10.2 基于A3C爬山//149
10.2.1 TensorBoard中的可视化//155
10.3 小结//158
10.4 问题//158
10.5 扩展阅读//158
第11章策略梯度和优化//159
11.1 策略梯度//159
11.1.1 基于策略梯度的月球着陆器//160
11.2 DDPG//164
11.2.1 倒立摆//165
11.3 TRPO//170
11.4 PPO//173
11.5 小结//175
11.6 问题//175
11.7 扩展阅读//175
第12章 Capstone项目—基于DQN的赛车游戏//176
12.1 环境封装函数//176
12.2 对抗网络//179
12.3 回放记忆//180
12.4 训练网络//181
12.5 赛车游戏//186
12.6 小结//189
12.7 问题//189
12.8 扩展阅读//189
第13章近期新进展和未来发展//190
13.1 I2A//190
13.2 基于人类偏好的学习//193
13.3 DQfd//194
13.4 HER//195
13.5 HRL//196
13.5.１ MAXQ值函数分解//196
13.6 逆向强化学习//198
13.7 小结//199
13.8 问题//199
13.9 扩展阅读//199
附录知识点//200

Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

库存： {{selectedSku?.stock}} 库存充足

上架到店铺

Python强化学习实战应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习