深度强化学习学术前沿与实战应用--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书共分为四篇，即深度强化学习、多智能体深度强化学习、多任务深度强化学习和深度强化学习的应用。由浅入深、通俗易懂，涵盖经典算法和近几年的前沿技术进展。特别是书中详细介绍了每一种代表性算法的代码原型实现，旨在理论与实践相结合，让读者学有所得、学有所用。第一篇（包含第1~3章）主要讲解深度强化学习基础，侧重于单智能体强化学习算法，相对简单，有助于初级读者理解，同时涵盖了近几年的经典算法和一些前沿的研究成果。第二篇（包含第4~5章）主要侧重于对多智能体深度强化学习的讲解，从多智能体强化学习基本概念到相关算法的讲解和分析，以多个极具代表性的算法为例带领读者逐步学习多智能体训练及控制的理论与方法。同时，还介绍了多智能体强化学习领域一些前沿学术成果。第三篇（包含第6~7章）扩展到多任务场景，称为多任务深度强化学习。首先介绍了多任务强化学习的基本概念和相关基础知识，随后讲解了部分经典的多任务深度强化学习算法。第四篇（包含第8~11章）主要讲解深度强化学习的实际应用，涉及游戏、机器人控制、计算机视觉和自然语言处理四大领域。通过领域应用中思想和方法的讲解，培养读者跨领域解决实际问题的能力，以帮助读者熟练掌握和使用深度强化学习这一强大的方法来解决和优化实际工程领域中的问题。

前言
致谢
数学符号
第一篇深度强化学习
第1章深度强化学习基础2
1.1强化学习2
1.1.1强化学习的发展历史2
1.1.2强化学习简介4
1.1.3深度强化学习简介6
1.2马尔可夫属性和决策过程9
1.2.1马尔可夫属性9
1.2.2马尔可夫决策过程11
1.3强化学习核心概念12
1.3.1值函数12
1.3.2动态规划14
1.3.3时间（序）差分15
1.3.4策略梯度16
1.3.5actor-critic方法17
1.4Q-learning18
1.4.1Q-learning简介18
1.4.2算法19
1.4.3相关变量及影响20
1.4.4实现方法21
第2章深度强化学习算法22
2.1基于值的深度强化学习算法22
2.1.1深度Q网络22
2.1.2深度双Q网络27
2.1.3竞争网络架构31
2.1.4平均值DQN33
2.1.5多DQN变种结合体：Rainbow37
2.1.6基于动作排除的DQN42
2.2基于策略的深度强化学习算法46
2.2.1循环确定性策略梯度46
2.2.2深度确定性策略梯度55
2.2.3信赖域策略优化62
2.2.4近端策略优化68
2.3基于模型的深度强化学习算法73
2.3.1基于模型加速的连续深度Q-learning73
2.3.2范例模型探索80
2.3.3基于模型集成的信赖域策略优化88
2.3.4时间差分模型95
2.4基于分层的深度强化学习算法102
2.4.1分层深度强化学习102
2.4.2基于封建网络的分层强化学习109
2.4.3基于随机神经网络的分层强化学习116
第3章分布式深度强化学习123
3.1分布式系统123
3.1.1分布式系统简介123
3.1.2分布式系统的发展历史124
3.1.3架构演进125
3.1.4主流分布式系统框架128
3.2分布式深度强化学习算法129
3.2.1分布式近端策略优化129
3.2.2分布式深度确定性策略梯度138
3.3分布式深度强化学习框架145
3.3.1重要性加权Actor-Learner架构145
3.3.2分布式优先经验复用池153
第二篇多智能体深度强化学习
第4章多智能体深度强化学习基础162
4.1多智能体强化学习162
4.1.1多智能体强化学习发展历史162
4.1.2多智能体强化学习简介164
4.1.3优势和挑战166
4.2部分可见马尔可夫决策过程166
4.2.1POMDP模型166
4.2.2POMDP相关研究169
4.2.3POMDP应用领域170
第5章多智能体深度强化学习算法171
5.1基于值函数的多智能体深度强化学习171
5.1.1基于DQN的多智能体网络171
5.1.2增强智能体间学习174
5.1.3协同多智能体学习的价值分解网络178
5.1.4多智能体深度强化学习的稳定经验复用池182
5.1.5单调值函数分解187
5.1.6深度强化学习中的对立智能体建模190
5.1.7平均场多智能体强化学习193
5.2基于策略的多智能体深度强化学习197
5.2.1基于自身策略的其他智能体行为预测197
5.2.2双重平均方案201
5.2.3多智能体深度强化学习的统一博弈论方法208
5.3基于AC框架的多智能体深度强化学习212
5.3.1多智能体深度确定性策略梯度212
5.3.2多智能体集中规划的价值函数策略梯度220
5.3.3多智能体系统的策略表示学习227
5.3.4部分可观察环境下的多智能体策略优化231
5.3.5基于联网智能体的接近去中心化MARL236
第三篇多任务深度强化学习
第6章多任务深度强化学习基础244
6.1简介244
6.1.1理论概述244
6.1.2面临的挑战247
6.2策略蒸馏法248
第7章多任务深度强化学习算法253
7.1无监督强化与辅助学习253
7.1.1算法介绍253
7.1.2算法分析255
7.1.3使用场景与优势分析261
7.2使用渐进式神经网络解决任务的复杂序列262
7.2.1算法介绍262
7.2.2算法分析262
7.2.3使用场景与优势分析266
7.3基于单智能体的多任务共享模型267
7.3.1算法介绍267
7.3.2算法分析268
7.3.3使用场景与优势分析272
7.4使用PopArt归一化多任务更新幅度273
7.4.1算法介绍273
7.4.2算法分析274
7.4.3使用场景与优势分析276
第四篇深度强化学习的应用
第8章游戏278
8.1GymRetro游戏平台278
8.1.1平台简介278
8.1.2安装GymRetro平台281
8.1.3安装RetroUI282
8.1.4GymRetro主要函数说明283
8.2相关应用285
8.2.1Pong游戏285
8.2.2CartPole291
8.2.3FlappyBird298
8.2.4Gradius302
第9章机器人控制312
9.1机器人导航312
9.1.1无地图导航312
9.1.2社会感知机器人导航316
9.2路径规划321
9.3机器人视觉324
第10章计算机视觉327
10.1图像327
10.1.1图像字幕327
10.1.2图像恢复332
10.2视频337
10.2.1视频字幕337
10.2.2视频快进345
10.2.3视觉跟踪348
第11章自然语言处理354
11.1与知识库交互的多轮对话智能体354
11.1.1概率KB查找355
11.1.2端到端KB-InfoBot356
11.1.3总结359
11.2鲁棒远程监督关系提取359
11.2.1问题表述360
11.2.2使用基于策略的智能体重新分配训练数据集363
11.2.3总结363
11.3非成对情感–情感翻译363
11.3.1问题表述363
11.3.2训练算法366
11.3.3总结367
缩写参照表368
常用词中英文对照371
参考文献374

深度强化学习 学术前沿与实战应用

库存： {{selectedSku?.stock}} 库存充足

上架到店铺

深度强化学习学术前沿与实战应用