白话强化学习与PYTORCH--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

用简单的例子帮你理解复杂的强化学习概念，用幽默的语言帮你迈过强化学习的门槛。对深度学习和强化学习的初学者及工程实践人员来说，本书是知识框架搭建和工程入门方面的优秀参考书。

内容简介

本书以“平民”的起点，从“零”开始，基于PyTorch框架，介绍深度学习和强化学习的技术与技巧，逐层铺垫，营造良好的带入感和亲近感，把学习曲线拉平，使得没有学过微积分等高级理论的程序员一样能够读得懂、学得会。同时，本书配合漫画插图来调节阅读气氛，并对每个原理都进行了对比讲解和实例说明。本书适合对深度学习和强化学习感兴趣的技术人员、希望对深度学习和强化学习进行入门了解的技术人员及深度学习和强化学习领域的初级从业人员阅读。

作者简介

"高扬，金山办公软件人工智能组技术负责人，历任欢聚时代人工智能算法专家，金山软件西山居大数据架构师等职。重庆工商大学研究生导师，电子工业出版社博文视点大数据技术图书专家委员会专家委员，有多年海外工作经验。有多部白话系列大数据与机器学习相关著作。叶振斌，现任网易游戏伏羲人工智能实验室高级深度学习研发工程师。多年从事机器学习，特别是强化学习智能算法的研究及开发工作。拥有丰富的软件开发经验，丰富的人工智能算法训练平台开发经验。于2014年获东北大学软件工程专业学士学位，2017年获重庆大学计算机科学与技术专业硕士学位。 "

传统篇第1章强化学习是什么 2 1.1 题设 3 1.1.1 多智能才叫智能 5 1.1.2 人工智能的定义 5 1.2 强化学习的研究对象 7 1.2.1 强化学习的应用场合 7 1.2.2 强化学习的建模 11 1.3 本章小结 17 第2章强化学习的脉络 18 2.1 什么是策略 18 2.2 什么样的策略是好的策略 19 2.3 什么是模型 21 2.4 如何得到一个好的策略 23 2.4.1 直接法 23 2.4.2 间接法 25 2.5 马尔可夫决策过程 29 2.5.1 状态转移 30 2.5.2 策略与评价 31 2.5.3 策略优化 36 2.6 Model-Based和Model-Free 36 2.6.1 Model-Based 36 2.6.2 规划问题 37 2.6.3 Model-Free 38 2.7 本章小结 38 第3章动态规划 40 3.1 状态估值 40 3.2 策略优化 42 3.3 本章小结 43 第4章蒙特卡罗法 45 4.1 历史由来 45 4.2 状态估值 47 4.3 两种估值方法 49 4.3.1 首次访问蒙特卡罗策略估值 49 4.3.2 每次访问蒙特卡罗策略估值 49 4.3.3 增量平均 50 4.4 弊端 51 4.5 本章小结 52 第5章时间差分 53 5.1 SARSA算法 53 5.1.1 SARSA算法的伪代码 54 5.1.2 SARSA算法的优点和缺点 57 5.2 Q-Learning算法 57 5.2.1 Q-Learning算法的伪代码 58 5.2.2 Q-Learning算法的优点和缺点 59 5.3 On-Policy和Off-Policy 61 5.4 On-Line学习和Off-Line学习 62 5.5 比较与讨论 63 5.6 本章小结 65 现代篇第6章深度学习 68 6.1 PyTorch简介 69 6.1.1 历史渊源 70 6.1.2 支持 71 6.2 神经元 74 6.3 线性回归 77 6.4 激励函数 80 6.4.1 Sigmoid函数 81 6.4.2 Tanh函数 82 6.4.3 ReLU函数 82 6.4.4 Linear函数 83 6.5 神经网络 84 6.6 网络训练 85 6.6.1 输入 86 6.6.2 输出 86 6.6.3 网络结构 87 6.6.4 损失函数 88 6.6.5 求解极小值 90 6.6.6 线性回归 90 6.6.7 凸函数 93 6.6.8 二元（多元）凸函数 98 6.6.9 导数补充 101 6.6.10 导数怎么求 103 6.6.11 “串联”的神经元 105 6.6.12 模型的工作 107 6.6.13 理解损失函数 108 6.7 深度学习的优势 108 6.7.1 线性和非线性的叠加 109 6.7.2 不用再提取特征 111 6.7.3 处理线性不可分 112 6.8 手写数字识别公开数据集 114 6.9 全连接网络 117 6.9.1 输入与输出 118 6.9.2 代码解读 119 6.9.3 运行结果 125 6.10 卷积神经网络 125 6.10.1 代码解读 125 6.10.2 理解卷积神经网络的结构 132 6.10.3 卷积核的结构 134 6.11 循环神经网络 135 6.11.1 网络结构 136 6.11.2 应用案例 140 6.11.3 代码解读 143 6.12 其他注意事项 148 6.12.1 并行计算 148 6.12.2 梯度消失和梯度爆炸 152 6.12.3 归一化 157 6.12.4 超参数的设置 159 6.12.5 正则化 161 6.12.6 不专享的模型 170 6.13 深度神经网络的发展趋势 171 6.14 本章小结 178 第7章 Gym――不要钱的试验场 180 7.1 简介 180 7.2 安装 182 7.3 类别 183 7.4 接口 188 7.5 本章小结 191 第8章 DQN算法族 192 8.1 2013版DQN 192 8.1.1 模型结构 192 8.1.2 训练过程 195 8.1.3 Replay Memory 197 8.1.4 小结 198 8.2 2015版DQN 198 8.2.1 模型结构 198 8.2.2 训练过程 199 8.2.3 Target网络 200 8.2.4 小结 201 8.3 Double DQN 201 8.3.1 模型结构 202 8.3.2 训练过程 202 8.3.3 效果 203 8.3.4 小结 204 8.4 Dueling DQN 204 8.4.1 模型结构 205 8.4.2 效果 207 8.4.3 小结 208 8.5 优先回放DQN 208 8.6 本章小结 209 第9章 PG算法族 211 9.1 策略梯度 211 9.2 DPG 213 9.3 Actor-Critic 214 9.4 DDPG 214 9.5 本章小结 218 第10章 A3C 219 10.1 模型结构 219 10.1.1 A3C Q-Learning 219 10.1.2 A3C Actor-Critic 222 10.2 本章小结 224 第11章 UNREAL 226 11.1 主任务 226 11.2 像素控制任务 227 11.3 奖励值预测 229 11.4 值函数回放 230 11.5 损失函数 231 11.6 本章小结 232 扩展篇第12章 NEAT 236 12.1 遗传算法 237 12.1.1 进化过程 237 12.1.2 算法流程 238 12.1.3 背包问题 239 12.1.4 极大（小）值问题 247 12.2 NEAT原理 255 12.2.1 基因组 255 12.2.2 变异和遗传 256 12.3 NEAT示例 258 12.4 本章小结 262 第13章 SerpentAI 263 13.1 简介 263 13.2 安装和配置 264 13.3 示例 265 13.3.1 创建Game Plugin 265 13.3.2 创建Game Agent 268 13.3.3 训练Context Classifier 271 13.3.4 训练Agent 282 13.4 本章小结 286 第14章案例详解 287 14.1 AlphaGo 287 14.1.1 AlphaGo的前世今生 287 14.1.2 “深蓝”是谁 288 14.1.3 围棋到底有多复杂 290 14.1.4 论文要义 294 14.1.5 成绩 302 14.1.6 开源项目 303 14.2 AlphaGo Zero 304 14.2.1 改进之处 304 14.2.2 成绩 308 14.2.3 开源项目 309 14.3 试验场大观 311 14.3.1 StarCraftⅡ 311 14.3.2 VizDoom 320 14.3.3 Universe 323 14.3.4 DOTA2 324 14.4 本章小结 329 第15章扩展讨论 331 15.1 TRPO 331 15.2 反向强化学习 332 15.3 模型压缩 333 15.3.1 剪枝 335 15.3.2 量化 336 15.3.3 结构压缩 337 15.4 本章小结 339 后记 341 附录A 342 A.1 安装Ubuntu 342 A.2 安装CUDA环境 347 A.3 安装PyTorch 348 A.4 下载本书示例代码 349 A.5 安装PyCharm 350 A.5.1 方法一 350 A.5.2 方法二 351 A.6 安装Jupyter Notebook 351 A.7 安装相关Python依赖包 352 A.7.1 安装Box2D 352 A.7.2 安装MuJoCo 352 A.7.3 安装SerpentAI 355 A.7.4 安装Spritex 359 A.7.5 安装StarCraftⅡ 360 A.7.6 安装VizDoom 363 A.8 安装OpenCV 364 A.9 Python语言简介 364 A.9.1 安装Python 365 A.9.2 Hello World 365 A.9.3 行与缩进 365 A.9.4 变量类型 366 A.9.5 循环语句 367 A.9.6 函数 368 A.9.7 模块 369 A.9.8 小结 369 A.10 本书涉及的主要开源软件版本 369 参考文献 371

白话强化学习与PYTORCH

库存： {{selectedSku?.stock}} 库存充足

上架到店铺