统计强化学习:现代机器学习方法--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书从现代机器学习的视角介绍了统计强化学习的基本概念和实用算法。它涵盖了各种类型的强化学习方法，包括基于模型的方法和与模型无关的方法，策略迭代和策略搜索方法。

作者简介

杉山将（Masashi Sugiyama）东京大学教授，研究兴趣为机器学习与数据挖掘的理论、算法和应用。2007年获得IBM学者奖，以表彰其在机器学习领域非平稳性方面做出的贡献。2011年获得日本信息处理协会颁发的Nagao特别研究员奖，以及日本文部科学省颁发的青年科学家奖，以表彰其对机器学习密度比范型的贡献。

译者序序前言作者简介第一部分简介第1章强化学习介绍3 1.1 强化学习3 1.2 数学形式化8 1.3 本书结构11 1.3.1 模型无关策略迭代11 1.3.2 模型无关策略搜索12 1.3.3 基于模型的强化学习13第二部分模型无关策略迭代第2章基于值函数近似的策略迭代17 2.1 值函数17 2.1.1 状态值函数17 2.1.2 状态-动作值函数18 2.2 最小二乘策略迭代19 2.2.1 瞬时奖赏回归20 2.2.2 算法21 2.2.3 正则化23 2.2.4 模型选择25 2.3 本章小结26第3章值函数近似中的基函数设计27 3.1 图中的高斯核27 3.1.1 MDP-诱导图27 3.1.2 通用高斯核28 3.1.3 测地线高斯核29 3.1.4 扩展到连续状态空间30 3.2 图解说明30 3.2.1 配置30 3.2.2 测地线高斯核31 3.2.3 通用高斯核33 3.2.4 图拉普拉斯特征基33 3.2.5 扩散小波35 3.3 数值示例35 3.3.1 机器人手臂控制35 3.3.2 机器人导航39 3.4 本章小结46第4章策略迭代中的样本重用47 4.1 形式化47 4.2 离策略值函数近似48 4.2.1 片段重要性加权49 4.2.2 每次决策的重要性加权50 4.2.3 自适应的每次决策重要性加权50 4.2.4 图解说明51 4.3 展平参数的自动选择54 4.3.1 重要性加权交叉验证54 4.3.2 图解说明55 4.4 样本重用策略迭代56 4.4.1 算法56 4.4.2 图解说明56 4.5 数值示例58 4.5.1 倒立摆58 4.5.2 小车爬山61 4.6 本章小结64第5章策略迭代中的主动学习65 5.1 主动学习的高效探索65 5.1.1 问题配置65 5.1.2 泛化误差的分解66 5.1.3 估计泛化误差67 5.1.4 设计采样策略68 5.1.5 图解说明69 5.2 主动策略迭代72 5.2.1 具有主动学习的样本重用策略迭代72 5.2.2 图解说明73 5.3 数值示例74 5.4 本章小结76第6章鲁棒策略迭代79 6.1 策略迭代中的鲁棒性和可靠性79 6.1.1 鲁棒性79 6.1.2 可靠性80 6.2 最小绝对策略迭代81 6.2.1 算法81 6.2.2 图解说明81 6.2.3 性质82 6.3 数值示例83 6.4 可能的拓展88 6.4.1 Huber损失88 6.4.2 pinball损失89 6.4.3 deadzone-linear损失90 6.4.4 切比雪夫逼近90 6.4.5 条件风险值91 6.5 本章小结92第三部分模型无关策略搜索第7章梯度上升的直接策略搜索95 7.1 形式化95 7.2 梯度方法96 7.2.1 梯度上升96 7.2.2 方差约简的基线减法98 7.2.3 梯度估计量的方差分析99 7.3 自然梯度法101 7.3.1 自然梯度上升101 7.3.2 图解说明103 7.4 计算机图形中的应用：艺术家智能体104 7.4.1 东方山水画绘画104 7.4.2 状态、动作和瞬时奖赏的设计106 7.4.3 实验结果111 7.5 本章小结113第8章期望优选化的直接策略搜索117 8.1 期望优选化方法117 8.2 样本重用119 8.2.1 片段重要性加权119 8.2.2 每次决策的重要性加权122 8.2.3 自适应的每次决策重要性加权123 8.2.4 展平参数的自动选择123 8.2.5 样本重用的加权奖赏回归125 8.3 数值示例125 8.4 本章小结131第9章策略优先搜索133 9.1 形式化133 9.2 基于参数探索的策略梯度134 9.2.1 策略优先的梯度上升134 9.2.2 方差约简的基线减法135 9.2.3 梯度估计量的方差分析136 9.2.4 数值示例138 9.3 策略优先搜索中的样本重用142 9.3.1 重要性加权142 9.3.2 基线减法的方差约简144 9.3.3 数值示例146 9.4 本章小结153第四部分基于模型的强化学习第10章转移模型估计157 10.1 条件密度估计157 10.1.1 基于回归的方法157 10.1.2 ε-邻域核密度估计158 10.1.3 最小二乘条件密度估计159 10.2 基于模型的强化学习161 10.3 数值示例162 10.3.1 连续型链条游走162 10.3.2 人形机器人控制167 10.4 本章小结171第11章转移模型估计的维度约简173 11.1 充分维度约简173 11.2 平方损失条件熵173 11.2.1 条件独立174 11.2.2 利用SCE进行维度约简175 11.2.3 SCE与平方损失互信息的关系176 11.3 数值示例176 11.3.1 人工和标准数据集176 11.3.2 人形机器人179 11.4 本章小结182参考文献183

统计强化学习:现代机器学习方法

库存： {{selectedSku?.stock}} 库存充足

上架到店铺