您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
强化学习 原理与Phthon实现
装帧: 平装
出版社: 机械工业出版社
作者: 肖智清
出版日期: 2019-08-01
商品条码: 9787111631774
版次: 1
开本: 16开
页数: 239
出版年份: 2019
定价:
¥89
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
内容简介
全书分为三个部分。第壹部分了解强化学习应用,了解强化学习基本知识,搭建强化学习测试环境。该部分包括:强化学习的概况、强化学习简单示例、强化学习算法的常见思想、强化学习的应用、强化学习测试环境的搭建。第二部分介绍强化学习理论与深度强化学习算法。强化学习理论部分:Markov决策过程的数学描述、Monte Carlo方法和时序差分方法的数学理论;深度强化学习算法部分:详细剖析全部具有重要影响力的深度强化学习算法,结合TensorFlow实现源码。第三部分介绍强化学习综合应用案例。
作者简介
目录
前言
第1章初识强化学习1
1.1强化学习及其关键元素1
1.2强化学习的应用3
1.3智能体/环境接口4
1.4强化学习的分类6
1.4.1按任务分类6
1.4.2按算法分类7
1.5如何学习强化学习8
1.5.1学习路线9
1.5.2学习资源9
1.6案例:基于Gym库的智能体/环境交互9
1.6.1安装Gym库10
1.6.2使用Gym库10
1.6.3小车上山12
1.7本章小结14
第2章Markov决策过程16
2.1Markov决策过程模型16
2.1.1离散时间Markov决策过程16
2.1.2环境与动力18
2.1.3智能体与策略19
2.1.4奖励、回报与价值函数19
2.2Bellman期望方程21
2.3很优策略及其性质25
2.3.1很优策略与很优价值函数25
2.3.2Bellman很优方程25
2.3.3用Bellman很优方程求解很优策略29
2.4案例:悬崖寻路31
2.4.1实验环境使用31
2.4.2求解Bellman期望方程32
2.4.3求解Bellman很优方程33
2.5本章小结35
第3章有模型数值迭代37
3.1度量空间与压缩映射37
3.1.1度量空间及其完备性37
3.1.2压缩映射与Bellman算子38
3.1.3Banach不动点定理39
3.2有模型策略迭代40
3.2.1策略评估40
3.2.2策略改进42
3.2.3策略迭代44
3.3有模型价值迭代45
3.4动态规划46
3.4.1从动态规划看迭代算法46
3.4.2异步动态规划47
3.5案例:冰面滑行47
3.5.1实验环境使用48
3.5.2有模型策略迭代求解49
3.5.3有模型价值迭代求解51
3.6本章小结52
第4章回合更新价值迭代54
4.1同策回合更新54
4.1.1同策回合更新策略评估54
4.1.2带起始探索的同策回合更新58
4.1.3基于柔性策略的同策回合更新60
4.2异策回合更新62
4.2.1重要性采样62
4.2.2异策回合更新策略评估64
4.2.3异策回合更新很优策略求解65
4.3案例:21点游戏66
4.3.1实验环境使用66
4.3.2同策策略评估67
4.3.3同策很优策略求解70
4.3.4异策策略评估72
4.3.5异策很优策略求解73
4.4本章小结74
第5章时序差分价值迭代76
5.1同策时序差分更新76
5.1.1时序差分更新策略评估78
5.1.2SARSA算法81
5.1.3期望SARSA算法83
5.2异策时序差分更新85
5.2.1基于重要性采样的异策算法85
5.2.2Q学习86
5.2.3双重Q学习87
5.3资格迹89
5.3.1λ回报89
5.3.2TD(λ)90
5.4案例:出租车调度92
5.4.1实验环境使用93
5.4.2同策时序差分学习调度94
5.4.3异策时序差分学习调度97
5.4.4资格迹学习调度99
5.5本章小结100
第6章函数近似方法101
6.1函数近似原理101
6.1.1随机梯度下降101
6.1.2半梯度下降103
6.1.3带资格迹的半梯度下降105
6.2线性近似107
6.2.1准确查找表与线性近似的关系107
6.2.2线性最小二乘策略评估107
6.2.3线性最小二乘很优策略求解109
6.3函数近似的收敛性109
6.4深度Q学习110
6.4.1经验回放111
6.4.2带目标网络的深度Q学习112
6.4.3双重深度Q网络114
6.4.4对偶深度Q网络114
6.5案例:小车上山115
6.5.1实验环境使用116
6.5.2用线性近似求解很优策略117
6.5.3用深度Q学习求解很优策略120
6.6本章小结123
第7章回合更新策略梯度方法125
7.1策略梯度算法的原理125
7.1.1函数近似与动作偏好125
7.1.2策略梯度定理126
7.2同策回合更新策略梯度算法128
7.2.1简单的策略梯度算法128
7.2.2带基线的简单策略梯度算法129
7.3异策回合更新策略梯度算法131
7.4策略梯度更新和极大似然估计的关系132
7.5案例:车杆平衡132
7.5.1同策策略梯度算法求解很优策略133
7.5.2异策策略梯度算法求解很优策略135
7.6本章小结137
第8章执行者/评论者方法139
8.1同策执行者/评论者算法139
8.1.1动作价值执行者/评论者算法140
8.1.2优势执行者/评论者算法141
8.1.3带资格迹的执行者/评论者算法143
8.2基于代理优势的同策算法143
8.2.1代理优势144
8.2.2邻近策略优化145
8.3信任域算法146
8.3.1KL散度146
8.3.2信任域147
8.3.3自然策略梯度算法148
8.3.4信任域策略优化151
8.3.5Kronecker因子信任域执行者/评论者算法152
8.4重要性采样异策执行者/评论者算法153
8.4.1基本的异策算法154
8.4.2带经验回放的异策算法154
8.5柔性执行者/评论者算法157
8.5.1熵157
8.5.2奖励工程和带熵的奖励158
8.5.3柔性执行者/评论者的网络设计159
8.6案例:双节倒立摆161
8.6.1同策执行者/评论者算法求解很优策略162
8.6.2异策执行者/评论者算法求解很优策略168
8.7本章小结170
第9章连续动作空间的确定性策略172
9.1同策确定性算法172
9.1.1策略梯度定理的确定性版本172
9.1.2基本的同策确定性执行者/评论者算法174
9.2异策确定性算法176
9.2.1基本的异策确定性执行者/评论者算法177
9.2.2深度确定性策略梯度算法177
9.2.3双重延迟深度确定性策略梯度算法178
9.3案例:倒立摆的控制180
9.3.1用深度确定性策略梯度算法求解181
9.3.2用双重延迟深度确定性算法求解184
9.4本章小结187
第10章综合案例:电动游戏188
10.1Atari游戏环境188
10.1.1Gym库的完整安装188
10.1.2游戏环境使用190
10.2基于深度Q学习的游戏AI191
10.2.1算法设计192
10.2.2智能体的实现193
10.2.3智能体的训练和测试197
10.3本章小结198
第11章综合案例:棋盘游戏200
11.1双人确定性棋盘游戏200
11.1.1五子棋和井字棋200
11.1.2黑白棋201
11.1.3围棋202
11.2AlphaZero算法203
11.2.1回合更新树搜索203
11.2.2深度残差网络206
11.2.3自我对弈208
11.2.4算法流程210
11.3棋盘游戏环境boardgame2210
11.3.1为Gym库扩展自定义环境211
11.3.2boardgame2设计211
11.3.3Gym环境接口的实现214
11.3.4树搜索接口的实现216
11.4AlphaZero算法实现218
11.4.1智能体类的实现218
11.4.2自我对弈的实现223
11.4.3训练智能体224
11.5本章小结225
第12章综合案例:自动驾驶226
12.1AirSim开发环境使用226
12.1.1安装和运行AirSim226
12.1.2用Python访问AirSim228
12.2基于强化学习的自动驾驶229
12.2.1为自动驾驶设计强化学习环境230
12.2.2智能体设计和实现235
12.2.3智能体的训练和测试237
12.3本章小结239
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网