强化学习入门从原理到实践--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书以理论和实践相结合的形式深入浅出地介绍强化学习的历史、基本概念、经典算法和一些前沿技术，共分为三大部分：第壹部分（1~5章）介绍强化学习的发展历史、强化学习的基本概念以及一些经典的强化学习算法；第二部分（6~9章）在简要回顾深度学习技术的基础上着重介绍深度强化学习的一些前沿实用算法；第三部分（最后一章）以五子棋为例详细讲解战胜了人类很好围棋选手的Alpha Zero算法的核心思想。

作者简介

叶强，医学博士、计算机科学硕士，先后毕业于上海交通大学和蒙特利尔大学。长期从事眼科临床工作，主要科研方向为视觉神经细胞的计算模型和医学信息学。获国家发明专利一项，实用新型专利多项，软件著作权多项。在国内第一次规范、系统地实现了移动客户端自助视力检查软件系统。近年来，主要研究方向为人工智能技术及其在临床医学和医学信息学中的应用。

前言
致谢
常用数学符号
主要算法列表
第1章概述1
1.1强化学习的历史1
1.2强化学习的基本概念2
1.3章节组织6
1.4编程环境与代码资源6
第2章从一个示例到马尔可夫决策过程7
2.1马尔可夫过程7
2.2马尔可夫奖励过程9
2.3马尔可夫决策过程13
2.4编程实践：学生马尔可夫决策示例20
2.4.1收获和价值的计算20
2.4.2验证贝尔曼方程22
第3章动态规划寻找很优策略29
3.1策略评估29
3.2策略迭代32
3.3价值迭代33
3.4异步动态规划算法36
3.5编程实践：动态规划求解小型格子世界很优策略37
3.5.1小型格子世界MDP建模37
3.5.2策略评估40
3.5.3策略迭代41
3.5.4价值迭代41
第4章不基于模型的预测43
4.1蒙特卡罗强化学习43
4.2时序差分强化学习45
4.3n步时序差分学习50
4.4编程实践：蒙特卡罗学习评估21点游戏的玩家策略54
4.4.121点游戏规则54
4.4.2将21点游戏建模为强化学习问题55
4.4.3游戏场景的搭建55
4.4.4生成对局数据64
4.4.5策略评估64
第5章无模型的控制67
5.1行为价值函数的重要性67
5.2e贪婪策略68
5.3同策略蒙特卡罗控制69
5.4同策略时序差分控制70
5.4.1Sarsa算法70
5.4.2Sarsa(λ)算法73
5.4.3比较Sarsa和Sarsa(λ)74
5.5异策略Q学习算法76
5.6编程实践：蒙特卡罗学习求解21点游戏的很优策略78
5.7编程实践：构建基于gym的有风的格子世界及个体81
5.7.1gym库简介81
5.7.2状态序列的管理83
5.7.3个体基类的编写84
5.8编程实践：各类学习算法的实现及与有风的格子世界的交互88
5.8.1Sarsa算法89
5.8.2Sarsa(λ)算法90
5.8.3Q学习算法91
第6章价值函数的近似表示93
6.1价值近似的意义93
6.2目标函数与梯度下降95
6.2.1目标函数95
6.2.2梯度和梯度下降97
6.3常用的近似价值函数100
6.3.1线性近似101
6.3.2神经网络101
6.3.3卷积神经网络近似104
6.4DQN算法108
6.5编程实践：基于PyTorch实现DQN求解PuckWorld问题109
6.5.1基于神经网络的近似价值函数110
6.5.2实现DQN求解PuckWorld问题113
第7章基于策略梯度的深度强化学习117
7.1基于策略学习的意义117
7.2策略目标函数119
7.3Actor-Critic算法121
7.4深度确定性策略梯度算法124
7.5编程实践：DDPG算法实现125
7.5.1连续行为空间的PuckWorld环境125
7.5.2Actor-Critic网络的实现127
7.5.3确定性策略下探索的实现130
7.5.4DDPG算法的实现130
7.5.5DDPG算法在PuckWorld环境中的表现135
第8章基于模型的学习和规划137
8.1环境的模型137
8.2整合学习与规划——Dyna算法139
8.3基于模拟的搜索140
8.3.1简单蒙特卡罗搜索140
8.3.2蒙特卡罗树搜索141
第9章探索与利用143
9.1多臂游戏机143
9.2常用的探索方法145
9.2.1衰减的e贪婪探索145
9.2.2不确定行为优先探索146
9.2.3基于信息价值的探索149
第10章AlphaZero算法实战151
10.1自博弈中的蒙特卡罗树搜索154
10.2模型评估中的蒙特卡罗搜索156
10.3策略价值网络结构及策略提升160
10.4编程实践：Alpha Zero算法在五子棋上的实现161
10.4.1从零开始搭建棋盘环境161
10.4.2搭建两种MCTS以实现Alpha Zero自博弈与模型评估168
10.4.3搭建策略价值网络并进行策略提升177
10.4.4训练自己的AlphaZero模型182
参考文献184

强化学习入门 从原理到实践

库存： {{selectedSku?.stock}} 库存充足

上架到店铺

强化学习入门从原理到实践