您好,欢迎来到聚文网。 登录 免费注册
Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

Python强化学习实战 应用OpenAI Gym和TensorFlow精通强化学习和深度强化学习

  • 字数: 300千字
  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: (印)苏达桑·拉维尚迪兰(Sudharsan Ravichandiran)
  • 出版日期: 2019-01-01
  • 商品条码: 9787111612889
  • 版次: 1
  • 开本: B5
  • 页数: 203
  • 出版年份: 2019
定价:¥69 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
强化学习是一种重要的机器学习方法,在智能体及分析预测等领域有许多应用。本书共13章,主要包括强化学习的各种要素,即智能体、环境、策略和模型以及相应平台和库;Anaconda、Docker、OpenAIGym、Universe和TensorFlow等安装配置;马尔可夫链和马尔可夫过程及其与强化学习问题建模之间的关系,动态规划的基本概念;蒙特卡罗方法以及不同类型的蒙特卡罗预测和控制方法;时间差分学习、预测、离线/在线策略控制等;多臂赌博机问题以及相关的各种探索策略方法;深度学习的各种基本概念和RNN、LSTM、CNN等神经网络;深度强化学习算法DQN,以及双DQN和对抗网络体系结构等改进架构;DRQN以及DARQN;A3C网络的基本工作原理及架构;策略梯度和优化问题;很后介绍了强化学习的新进展以及未来发展。
作者简介
苏达桑·拉维尚迪兰(Sudharsan Ravichandiran),是一位数据科学家、研究员、人工智能爱好者以及YouTuber,获得了Anna大学信息技术学生学位。他的研究领域包括深度学习和强化学习的实现,其中包括自然语言处理和计算机视觉。他曾是一名自由职业的网页开发人员和设计师,所设计开发的网站屡获殊荣,同时也热衷于开源,擅长解答堆栈溢出问题。
目录
译者序
原书前言
第1章 强化学习简介//1
1.1 什么是强化学习//1
1.2 强化学习算法//2
1.3 强化学习与其他机器学习范式的不同//3
1.4 强化学习的要素//3
1.4.1 智能体//3
1.4.2 策略函数//3
1.4.3 值函数//4
1.4.4 模型//4
1.5 智能体环境接口//4
1.6 强化学习的环境类型//5
1.6.1 确定性环境//5
1.6.2 随机性环境//5
1.6.3 接近可观测环境//5
1.6.4 部分可观测环境//5
1.6.5 离散环境//5
1.6.6 连续环境//5
1.6.7 情景和非情景环境//5
1.6.8 单智能体和多智能体环境//6
1.7 强化学习平台//6
1.7.1 OpenAI Gym和Universe//6
1.7.2 DeepMind Lab//6
1.7.3 RL-Glue//6
1.7.4 Project Malmo//6
1.7.5 VizDoom//6
1.8 强化学习的应用//7
1.8.1 教育//7
1.8.2 医疗和健康//7
1.8.3 制造业//7
1.8.4 库存管理//7
1.8.5 金融//7
1.8.6 自然语言处理和计算机视觉//7
1.9 小结//8
1.10 问题//8
1.11 扩展阅读//8
第2章 从OpenAI和TensorFlow入门//9
2.1 计算机设置//9
2.1.1 安装Anaconda//9
2.1.2 安装Docker//10
2.1.3 安装OpenAI Gym和Universe//11
2.2 OpenAI Gym//13
2.2.1 基本模拟//13
2.2.2 训练机器人行走//14
2.3 OpenAI Universe//16
2.3.1 构建一个视频游戏机器人//16
2.4 TensorFlow//20
2.4.1 变量、常量和占位符//20
2.4.2 计算图//21
2.4.3 会话//21
2.4.4 TensorBoard//22
2.5 小结//25
2.6 问题//25
2.7 扩展阅读//25
第3章 马尔可夫决策过程和动态规划//26
3.1 马尔可夫链和马尔可夫过程//26
3.2 MDP//27
3.2.1 奖励和回报//28
3.2.2 情景和连续任务//28
3.2.3 折扣因数//28
3.2.4 策略函数//29
3.2.5 状态值函数//29
3.2.6 状态—行为值函数(Q函数)//30
3.3 Bellman方程和很优性//30
3.3.1 推导值函数和Q函数的Bellman方程//31
3.4 求解Bellman方程//32
3.4.1 动态规划//32
3.5 求解冰冻湖问题//38
3.5.1 值迭代//39
3.5.2 策略迭代//43
3.6 小结//45
3.7 问题//45
3.8 扩展阅读//46
第4章 基于蒙特卡罗方法的博弈游戏//47
4.1 蒙特卡罗方法//47
4.1.1 利用蒙特卡罗方法估计π值//47
4.2 蒙特卡罗预测//50
4.2.1 首次访问蒙特卡罗//51
4.2.2 每次访问蒙特卡罗//52
4.2.3 利用蒙特卡罗方法玩二十一点游戏//52
4.3 蒙特卡罗控制//58
4.3.1 蒙特卡罗探索开始//58
4.3.2 在线策略的蒙特卡罗控制//59
4.3.3 离线策略的蒙特卡罗控制//61
4.4 小结//62
4.5 问题//62
4.6 扩展阅读//63
第5章 时间差分学习//64
5.1 时间差分学习//64
5.2 时间差分预测//64
5.3 时间差分控制//66
5.3.1 Q学习//66
5.3.2 SARSA//72
5.4 Q学习和SARSA之间的区别//77
5.5 小结//77
5.6 问题//78
5.7 扩展阅读//78
第6章 MAB问题//79
6.1 MAB问题//79
6.1.1 ε贪婪策略//80
6.1.2 Softmax探索算法//82
6.1.3 UCB算法//83
6.1.4 Thompson采样算法//85
6.2 MAB的应用//86
6.3 利用MAB识别正确的广告标识//87
6.4 上下文赌博机//89
6.5 小结//89
6.6 问题//89
6.7 扩展阅读//89
第7章 深度学习基础//90
7.1 人工神经元//90
7.2 ANN//91
7.2.1 输入层//92
7.2.2 隐层//92
7.2.3 输出层//92
7.2.4 激活函数//92
7.3 深入分析ANN//93
7.3.1 梯度下降//95
7.4 TensorFlow中的神经网络//99
7.5 RNN//101
7.5.1 基于时间的反向传播//103
7.6 LSTM RNN//104
7.6.1 利用LSTM RNN生成歌词//105
7.7 CNN//108
7.7.1 卷积层//109
7.7.2 池化层//111
7.7.3 全连接层//112
7.7.4 CNN架构//112
7.8 利用CNN对时尚产品进行分类//113
7.9 小结//117
7.10 问题//117
7.11 扩展阅读//118
第8章 基于DQN的Atari游戏//119
8.1 什么是DQN//119
8.2 DQN的架构//120
8.2.1 卷积网络//120
8.2.2 经验回放//121
8.2.3 目标网络//121
8.2.4 奖励裁剪//122
8.2.5 算法理解//122
8.3 构建一个智能体来玩Atari游戏//122
8.4 双DQN//129
8.5 优先经验回放//130
8.6 对抗网络体系结构//130
8.7 小结//131
8.8 问题//132
8.9 扩展阅读//132
第9章 基于DRQN玩Doom游戏//133
9.1 DRQN//133
9.1.1 DRQN架构//134
9.2 训练一个玩Doom游戏的智能体//135
9.2.1 基本的Doom游戏//135
9.2.2 基于DRQN的Doom游戏//136
9.3 DARQN//145
9.3.1 DARQN架构//145
9.4 小结//145
9.5 问题//146
9.6 扩展阅读//146
第10章 A3C网络//147
10.1 A3C//147
10.1.1 异步优势行为者//147
10.1.2 A3C架构//148
10.1.3 A3C的工作原理//149
10.2 基于A3C爬山//149
10.2.1 TensorBoard中的可视化//155
10.3 小结//158
10.4 问题//158
10.5 扩展阅读//158
第11章 策略梯度和优化//159
11.1 策略梯度//159
11.1.1 基于策略梯度的月球着陆器//160
11.2 DDPG//164
11.2.1 倒立摆//165
11.3 TRPO//170
11.4 PPO//173
11.5 小结//175
11.6 问题//175
11.7 扩展阅读//175
第12章 Capstone项目—基于DQN的赛车游戏//176
12.1 环境封装函数//176
12.2 对抗网络//179
12.3 回放记忆//180
12.4 训练网络//181
12.5 赛车游戏//186
12.6 小结//189
12.7 问题//189
12.8 扩展阅读//189
第13章 近期新进展和未来发展//190
13.1 I2A//190
13.2 基于人类偏好的学习//193
13.3 DQfd//194
13.4 HER//195
13.5 HRL//196
13.5.1 MAXQ值函数分解//196
13.6 逆向强化学习//198
13.7 小结//199
13.8 问题//199
13.9 扩展阅读//199
附录 知识点//200

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网