您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
深度强化学习 基础、研究与应用
字数: 745000
装帧: 平装
出版社: 电子工业出版社
作者: 董豪 等
出版日期: 2021-07-01
商品条码: 9787121411885
版次: 1
开本: 16开
页数: 520
出版年份: 2021
定价:
¥129
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
"本书重在为企业开发者和决策者提供Flutter的完整解决方案。 面向企业级应用场景下的绝大多数问题和挑战,都能在本书中获得答案。 注重单点问题的深耕与解决,如针对行业内挑战较大的、复杂场景下的性能问题。 本书通过案例与实际代码传达实践过程中的主要思路和关键实现。 本书采用全彩印刷,提供良好阅读体验。 "
内容简介
深度强化学习结合深度学习与强化学习算法各自的优势解决复杂的决策任务。得益于DeepMind AlphaGo和OpenAI Five成功的案例,深度强化学习受到大量的关注,相关技术广泛应用于不同的领域。本书分为三大部分,覆盖深度强化学习的全部内容。第一部分介绍深度学习和强化学习的入门知识、一些非常基础的深度强化学习算法及其实现细节,包括第1~6章。第二部分是一些精选的深度强化学习研究题目,这些内容对准备开展深度强化学习研究的读者非常有用,包括第7~12章。第三部分提供了丰富的应用案例,包括AlphaZero、让机器人学习跑步等,包括第13~17章。本书是为计算机科学专业背景、希望从零开始学习深度强化学习并开展研究课题和实践项目的学生准备的。本书也适合没有很强的机器学习背景、但是希望快速学习深度强化学习并将其应用到具体产品中的软件工程师阅读。
作者简介
目录
基础部分1
第1章深度学习入门2
1.1简介2
1.2感知器3
1.3多层感知器7
1.4激活函数9
1.5损失函数11
1.6优化13
1.6.1梯度下降和误差的反向传播13
1.6.2随机梯度下降和自适应学习率15
1.6.3超参数筛选17
1.7正则化18
1.7.1过拟合18
1.7.2权重衰减18
1.7.3Dropout20
1.7.4批标准化20
1.7.5其他缓和过拟合的方法21
1.8卷积神经网络22
1.9循环神经网络25
1.10深度学习的实现样例28
1.10.1张量和梯度28
1.10.2定义模型29
1.10.3自定义层31
1.10.4多层感知器:MNIST数据集上的图像分类33
1.10.5卷积神经网络:CIFAR-10数据集上的图像分类35
1.10.6序列到序列模型:聊天机器人36
第2章强化学习入门43
2.1简介43
2.2在线预测和在线学习46
2.2.1简介46
2.2.2随机多臂赌博机48
2.2.3对抗多臂赌博机50
2.2.4上下文赌博机51
2.3马尔可夫过程52
2.3.1简介52
2.3.2马尔可夫奖励过程54
2.3.3马尔可夫决策过程57
2.3.4贝尔曼方程和很优性61
2.3.5其他重要概念64
2.4动态规划64
2.4.1策略迭代65
2.4.2价值迭代67
2.4.3其他DPs:异步DP、近似DP和实时DP68
2.5蒙特卡罗70
2.5.1蒙特卡罗预测70
2.5.2蒙特卡罗控制71
2.5.3增量蒙特卡罗72
2.6时间差分学习73
2.6.1时间差分预测73
2.6.2Sarsa:在线策略TD控制77
2.6.3Q-Learning:离线策略TD控制80
2.7策略优化80
2.7.1简介80
2.7.2基于价值的优化84
2.7.3基于策略的优化89
2.7.4结合基于策略和基于价值的方法105
第3章强化学习算法分类110
3.1基于模型的方法和无模型的方法111
3.2基于价值的方法和基于策略的方法113
3.3蒙特卡罗方法和时间差分方法114
3.4在线策略方法和离线策略方法115
第4章深度Q网络119
4.1Sarsa和Q-Learning121
4.2为什么使用深度学习:价值函数逼近121
4.3DQN123
4.4Double DQN124
4.5Dueling DQN125
4.6优先经验回放127
4.7其他改进内容:多步学习、噪声网络和值分布强化学习128
4.8DQN代码实例131
第5章策略梯度146
5.1简介146
5.2REINFORCE:初版策略梯度147
5.3Actor-Critic149
5.4生成对抗网络和Actor-Critic150
5.5同步优势Actor-Critic152
5.6异步优势Actor-Critic153
5.7信赖域策略优化154
5.8近端策略优化157
5.9使用Kronecker因子化信赖域的Actor-Critic159
5.10策略梯度代码例子162
5.10.1相关的Gym环境162
5.10.2REINFORCE:AtariPong和CartPole-V0165
5.10.3AC:CartPole-V0173
5.10.4A3C:BipedalWalker-v2176
5.10.5TRPO:Pendulum-V0181
5.10.6PPO:Pendulum-V0192
第6章深度Q网络和Actor-Critic的结合200
6.1简介200
6.2深度确定性策略梯度算法201
6.3孪生延迟DDPG算法203
6.4柔性Actor-Critic算法206
6.4.1柔性策略迭代206
6.4.2SAC207
6.5代码例子209
6.5.1相关的Gym环境209
6.5.2DDPG:Pendulum-V0209
6.5.3TD3:Pendulum-V0215
6.5.4SAC:Pendulum-v0225
研究部分236
第7章深度强化学习的挑战237
7.1样本效率237
7.2学习稳定性240
7.3灾难性遗忘242
7.4探索243
7.5元学习和表征学习245
7.6多智能体强化学习246
7.7模拟到现实247
7.8大规模强化学习251
7.9其他挑战252
第8章模仿学习258
8.1简介258
8.2行为克隆方法260
8.2.1行为克隆方法的挑战260
8.2.2数据集聚合261
8.2.3Variational Dropout262
8.2.4行为克隆的其他方法262
8.3逆向强化学习方法263
8.3.1简介263
8.3.2逆向强化学习方法的挑战264
8.3.3生成对抗模仿学习265
8.3.4生成对抗网络指导性代价学习266
8.3.5对抗性逆向强化学习268
8.4从观察量进行模仿学习269
8.4.1基于模型方法269
8.4.2无模型方法272
8.4.3从观察量模仿学习的挑战277
8.5概率性方法277
8.6模仿学习作为强化学习的初始化279
8.7强化学习中利用示范数据的其他方法280
8.7.1将示范数据导入经验回放缓存280
8.7.2标准化Actor-Critic281
8.7.3用示范数据进行奖励塑形282
8.8总结282
第9章集成学习与规划289
9.1简介289
9.2基于模型的方法290
9.3集成模式架构292
9.4基于模拟的搜索293
9.4.1朴素蒙特卡罗搜索294
9.4.2蒙特卡罗树搜索294
9.4.3时间差分搜索295
第10章分层强化学习298
10.1简介298
10.2选项框架299
10.2.1战略专注作家300
10.2.2选项-批判者结构303
10.3封建制强化学习305
10.3.1封建制网络305
10.3.2离线策略修正307
10.4其他工作309
第11章多智能体强化学习315
11.1简介315
11.2优化和均衡316
11.2.1纳什均衡317
11.2.2关联性均衡318
11.2.3斯塔克尔伯格博弈320
11.3竞争与合作321
11.3.1合作321
11.3.2零和博弈321
11.3.3同时决策下的竞争322
11.3.4顺序决策下的竞争323
11.4博弈分析架构324
第12章并行计算326
12.1简介326
12.2同步和异步327
12.3并行计算网络329
12.4分布式强化学习算法330
12.4.1异步优势Actor-Critic330
12.4.2GPU/CPU混合式异步优势Actor-Critic332
12.4.3分布式近端策略优化333
12.4.4重要性加权的行动者-学习者结构和可扩展高效深度强化学习336
12.4.5Ape-X、回溯-行动者和分布式深度循环回放Q网络338
12.4.6Gorila340
12.5分布式计算架构340
应用部分343
第13章Learning to Run344
13.1NeurIPS 2017挑战:Learning to Run344
13.1.1环境介绍344
13.1.2安装346
13.2训练智能体347
13.2.1并行训练348
13.2.2小技巧351
13.2.3学习结果352
第14章鲁棒的图像增强354
14.1图像增强354
14.2用于鲁棒处理的强化学习356
第15章AlphaZero366
15.1简介366
15.2组合博弈367
15.3蒙特卡罗树搜索370
15.4AlphaZero:棋类游戏的通用算法376
第16章模拟环境中机器人学习388
16.1机器人模拟389
16.2强化学习用于机器人任务405
16.2.1并行训练407
16.2.2学习效果407
16.2.3域随机化408
16.2.4机器人学习基准409
16.2.5其他模拟器409
第17章Arena:多智能体强化学习平台412
17.1安装413
17.2用Arena开发游戏413
17.2.1简单的单玩家游戏414
17.2.2简单的使用奖励机制的双玩家游戏416
17.2.3高级设置420
17.2.4导出二进制游戏424
17.3MARL训练427
17.3.1设置X-Server427
17.3.2进行训练429
17.3.3可视化431
17.3.4致谢431
第18章深度强化学习应用实践技巧433
18.1概览:如何应用深度强化学习433
18.2实现阶段434
18.3训练和调试阶段440
总结部分445
附录A算法总结表446
附录B算法速查表451
B.1深度学习451
B.1.1随机梯度下降451
B.1.2Adam优化器452
B.2强化学习452
B.2.1赌博机452
B.2.2动态规划453
B.2.3蒙特卡罗454
B.3深度强化学习458
B.4高等深度强化学习467
B.4.1模仿学习467
B.4.2基于模型的强化学习468
B.4.3分层强化学习470
B.4.4多智能体强化学习471
B.4.5并行计算472
附录C中英文对照表476
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网