深度强化学习核心算法与应用--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

"《深度强化学习核心算法与应用》由腾讯游戏的AI算法专家联合写作，作为深度强化学习落地的先行者，他们将自己丰富的实践经验融入了本书。不同于其他算法书，本书摒弃“枝蔓”，直接切入算法主干，阐述具体场景中算法设计的思路、实现与流程，并侧重分析各类算法之间继承与发扬关系（脉络）。这种写法让读者可以直接掌握深度强化学习算法的本质，举一反三，领悟各类相关算法的精髓，应用于自己的工作中。"

内容简介

本书是一本深度强化学习领域的入门读物。全书分为四部分：第一部分主要阐述强化学习领域的基本理论知识；第二部分讲解深度强化学习常用算法的原理及流程；第三部分总结深度强化学习算法在游戏、推荐系统等领域的应用；第四部分探讨该领域存在的问题和发展前景。本书适合对强化学习感兴趣的读者阅读。

作者简介

陈世勇，腾讯游戏AI研究中心高级算法研究员。毕业于南京大学机器学习与数据挖掘研究所，主要从事强化学习、分布式机器学习方面的研究工作，井在国际很好会议和期刊上发表多篇论文。对于大规模强化学习在游戏A和推荐系统领域的研究和落地有着丰富经验，负责了多款游戏的强化学习A项目和“淘宝锦囊”强化学习推荐项目研发，参与了虚拟淘宝项目研发。

第一部分基础理论篇1
第1章马尔可夫决策过程3
1.1马尔可夫性3
1.2一些基本定义4
1.3值函数5
1.4基于策略的值函数5
1.5贝尔曼方程6
1.6策略迭代与值迭代7
第2章无模型的强化学习9
2.1蒙特卡洛方法10
2.1.1蒙特卡洛方法预测状态V值10
2.1.2蒙特卡洛方法预测Q值11
2.1.3蒙特卡洛策略优化算法11
2.1.4探索和利用12
2.1.5异策略蒙特卡洛方法13
2.2时间差分方法16
2.2.1基本思想16
2.2.2Sarsa算法17
2.2.3Q-Learning算法20
2.3值函数估计和策略搜索23
深度强化学习核心算法与应用
2.3.1值函数估计23
2.3.2策略搜索24
第3章有模型的强化学习27
3.1什么是模型27
3.2基本思路28
3.3有模型方法和无模型方法的区别29
3.4典型算法31
第二部分常用算法篇33
第4章DQN算法35
4.1算法介绍35
4.1.1背景36
4.1.2核心技术37
4.1.3算法流程39
4.2相关改进40
4.2.1DoubleQ-Learning40
4.2.2优先级回放41
4.2.3DuelingNetworks41
4.3实验效果与小结43
第5章A3C算法45
5.1Actor-Critic方法45
5.2基线减法与优势函数47
5.3博采众长的A3C算法48
5.4实验效果与小结50
第6章确定性策略梯度方法53
6.1随机性策略梯度与确定性策略梯度53
6.2异策略的确定性策略梯度54
6.3深度确定性策略梯度56
6.4D4PG算法57
6.4.1分布式57
6.4.2值函数分布58
6.4.3N-stepTD误差和优先级的经验回放59
6.5实验效果与小结59
第7章PPO算法61
7.1PPO算法的核心61
7.2TRPO算法62
7.3PPO算法65
7.4实验效果与小结67
7.4.1替代函数的对比67
7.4.2在连续空间中与其他算法的对比68
7.4.3小结69
第8章IMPALA算法71
8.1算法架构71
8.2V-trace算法73
8.3V-traceActor-Critic算法75
8.4实验效果与小结76
8.4.1计算性能76
8.4.2单任务训练性能76
8.4.3多任务训练性能78
8.4.4小结79
第三部分应用实践篇81
第9章深度强化学习在棋牌游戏中的应用83
9.1棋盘类游戏84
9.1.1AlphaGo:战胜人类围棋冠军84
9.1.2AlphaGoZero:不使用人类数据，从头学习87
9.1.3AlphaZero:从围棋到更多90
9.2牌类游戏93
9.2.1Suphx的五个模型93
9.2.2Suphx的训练过程和算法优化94
9.2.3Suphx的线上实战表现94
第10章深度强化学习在电子游戏中的应用97
10.1研发游戏中的机器人97
10.1.1单机游戏97
10.1.2对战游戏99
10.1.3小结104
10.2制作游戏动画105
10.3其他应用106
第11章深度强化学习在推荐系统中的应用109
11.1适用的场景110
11.1.1动态变化110
11.1.2考虑长期利益110
11.2淘宝锦囊推荐中的应用111
11.2.1淘宝锦囊推荐介绍111
11.2.2问题建模与推荐框架112
11.2.3算法设计与实验114
第12章深度强化学习在其他领域中的应用119
12.1在无人驾驶中的应用119
12.2在金融交易中的应用121
12.3在信息安全中的应用122
12.4在自动调参中的应用123
12.5在交通控制中的应用124
第四部分总结与展望篇127
第13章问题与挑战129
13.1样本利用率低129
13.2奖励函数难以设计131
13.3实验效果难复现132
13.4行为不接近可控134
第14章深度强化学习往何处去135
14.1未来发展和研究方向136
14.1.1有模型的方法潜力巨大136
14.1.2模仿学习137
14.1.3迁移学习的引入138
14.1.4分层强化学习140
14.2审慎乐观，大有可为141
参考资料143

深度强化学习核心算法与应用

库存： {{selectedSku?.stock}} 库存充足

上架到店铺