强化学习前沿算法与应用--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

浙江大学吴飞教授作序推荐，悉尼科技大学教授、澳大利亚人工智能理事会理事长张成奇，哈尔滨工业大学教授、重量领军人才刘挺，北京大学教授，ACM/IEEE Fellow邓小铁鼎力推荐；人工智能领域专家白辰甲、赵英男、郝建业、刘鹏、王震倾力编写，强化学习的创新力作。

内容简介

强化学习是机器学习的重要分支，是实现通用人工智能的重要途径。本书介绍了强化学习在算法层面的快速发展，包括值函数、策略梯度、值分布建模等基础算法，以及为了提升样本效率产生的基于模型学习、探索与利用、多目标学习、层次化学习、技能学习等算法，以及一些新兴领域，包括离线学习、表示学习、元学习等，旨在提升数据高效性和策略的泛化能力的算法，还介绍了应用领域中强化学习在智能控制、机器视觉、语言处理、医疗、推荐、金融等方面的相关知识。
本书深入浅出、结构清晰、重点突出，系统地阐述了强化学习的前沿算法和应用，适合从事人工智能、机器学习、优化控制、机器人、游戏开发等工作的专业技术人员阅读，还可作为计算机、人工智能、智能科学相关专业的研究生和高年级本科生的教材。

序言
前言
第1章强化学习简介
1.1从监督学习到强化学习
1.2强化学习的发展历史
1.3强化学习的研究范畴
1.4强化学习的应用领域
第2章强化学习基础知识
2.1强化学习的核心概念
2.2马尔可夫性和决策过程
2.3值函数和策略学习
第3章基于值函数的强化学习算法
3.1深度Q学习的基本理论
3.1.1深度Q网络
3.1.2经验池
3.1.3目标网络
3.2深度Q学习的过估计
3.2.1过估计的产生原因
3.2.2DoubleQ-学习
3.3深度Q学习的网络改进和高效采样
3.3.1Dueling网络
3.3.2高效采样
3.4周期后序迭代Q学习
3.5Q学习用于连续动作空间
3.5.1基于并行结构的Q学习
3.5.2基于顺序结构的Q学习
3.6实例：使用值函数学习的Atari游戏
3.6.1环境预处理
3.6.2Q网络的实现
3.6.3Q学习的核心步骤
第4章策略梯度迭代的强化学习算法
4.1REINFORCE策略梯度
4.1.1策略梯度的基本形式
4.1.2降低策略梯度的方差
……
3.3.2高效采样/ 3.4周期后序迭代Q学习/ 3.5Q学习用于连续动作空间/ 3.5.1基于并行结构的 Q学习/ 3.5.2基于顺序结构的Q学习/ 3.6实例：使用值函数学习的Atari游戏/ 3.6.1环境预处理/ 3.6.2Q网络的实现/ 3.6.3Q学习的核心步骤/第4章策略梯度迭代的强化学习算法/ 4.1REINFORCE 策略梯度/ 4.1.1策略梯度的基本形式/ 4.1.2降低策略梯度的方差/ 4.2异步策略梯度法/ 4.2.1引入优势函数/ 4.2.2异步策略梯度/ 4.3近端策略优化法/ 4.3.1裁剪的优化目标/ 4.3.2自适应的优化目标/ 4.4深度确定性策略梯度/ 4.4.1critic学习/ 4.4.2actor学习/ 4.4.3拓展1：探索噪声/ 4.4.4拓展2：孪生DDPG/ 4.5优选熵策略梯度/ 4.5.1熵约束的基本原理/ 4.5.2SAC算法/4.6实例：使用策略梯度的Mujoco任务/ 4.6.1actor-critic网络实现/ 4.6.2核心算法实现/第5章基于模型的强化学习方法/ 5.1如何使用模型来进行强化学习/ 5.2基于模型预测的规划/ 5.2.1随机打靶法/ 5.2.2集成概率轨迹采样法/ 5.2.3基于模型和无模型的混合算法/ 5.2.4基于想象力的隐式规划方法/ 5.3黑盒模型的理论框架/ 5.3.1随机下界优化算法/ 5.3.2基于模型的策略优化算法/ 5.4白盒模型的使用/ 5.4.1随机值梯度算法/ 5.4.2模型增强的actor-critic算法/ 5.5实例：AlphaGo围棋智能体/ 5.5.1网络结构介绍/ 5.5.2蒙特卡罗树搜索/ 5.5.3总体训练流程/第6章值分布式强化学习算法/ 6.1离散分布投影的值分布式算法/ 6.2分位数回归的值分布式算法/ 6.2.1分位数回归/ 6.2.2Wasserstein距离/ 6.2.3QR-DQN算法/ 6.2.4单调的分位数学习算法/ 6.3隐式的值分布网络/ 6.4基于值分布的代价敏感学习/ 6.4.1IQN中的代价敏感学习/ 6.4.2基于IQN的actor-critic模型的代价敏感学习/ 6.5实例：基于值分布的Q网络实现/ 6.5.1IQN模型构建/ 6.5.2IQN损失函数/第7章强化学习中的探索算法/ 7.1探索算法的分类/ 7.2基于不确定性估计的探索/ 7.2.1参数化后验的算法思路/ 7.2.2重采样DQN/ 7.3进行虚拟计数的探索/ 7.3.1基于图像生成模型的虚拟计数/ 7.3.2基于哈希的虚拟计数/ 7.4根据环境模型的探索/ 7.4.1特征表示的学习/ 7.4.2随机网络蒸馏/ 7.4.3Never-Give-Up算法/ 7.5实例：蒙特祖玛复仇任务的探索/ 7.5.1RND网络结构/ 7.5.2RND的训练/ 7.5.3RND用于探索/第8章多目标强化学习算法/ 8.1以目标为条件的价值函数/ 8.1.1优选熵HER/ 8.1.2动态目标HER/ 8.2监督式的多目标学习/ 8.2.1Hindsight模仿学习/ 8.2.2加权监督式多目标学习/ 8.3推广的多目标学习/ 8.4实例：仿真机械臂的多目标抓取/ 8.4.1多目标实验环境/ 8.4.2HER的实现方法/ 8.4.3MEP的算法实现/第9章层次化强化学习算法/ 9.1层次化学习的重要性/ 9.2基于子目标的层次化学习/ 9.2.1封建网络的层次化学习/ 9.2.2离策略修正的层次化学习/ 9.2.3虚拟子目标的强化学习方法/ 9.3基于技能的层次化学习/ 9.3.1使用随机网络的层次化学习/ 9.3.2共享分层的元学习方法/ 9.4基于选项的层次化学习/ 9.4.1option与半马尔可夫决策过程/ 9.4.2option-critic结构/ 9.5实例：层次化学习蚂蚁走迷宫任务/第10章基于技能的强化学习算法/ 10.1技能学习的定义/ 10.2互信息优选化的技能学习算法/ 10.2.1多样性优选化技能学习算法/ 10.2.2其他基于互信息的技能学习方法/ 10.3融合环境模型的技能学习算法/ 10.4优选化状态覆盖的技能学习算法/ 10.5实例：人形机器人的技能学习/第11章离线强化学习算法/ 11.1离线强化学习中面临的困难/ 11.2策略约束的离线学习/ 11.2.1BCQ算法/ 11.2.2BRAC算法/ 11.2.3TD3-BC算法/ 11.3使用保守估计的离线学习/ 11.4基于不确定性的离线学习/ 11.4.1UWAC算法/ 11.4.2MOPO算法/ 11.4.3PBRL算法/ 11.5监督式的离线学习/ 11.5.1DT算法/ 11.5.2RVS算法/ 11.6实例：使用离线学习的D4RL任务集/ 11.6.1D4RL数据集的使用/ 11.6.2CQL算法实现/ 11.6.3TD3-BC算法实现/第12章元强化学习算法/ 12.1元强化学习的定义/ 12.2基于网络模型的元强化学习方法/ 12.2.1使用循环神经网络的元强化学习方法/ 12.2.2基于时序卷积和软注意力机制的方法/ 12.3元梯度学习/ 12.4元强化学习中的探索方法/ 12.4.1结构化噪声探索方法/ 12.4.2利用后验采样进行探索/ 12.5实例：元学习训练多任务猎豹智能体/第13章高效的强化学习表示算法/ 13.1为什么要进行表示学习/ 13.2对比学习的特征表示/ 13.2.1基本原理和SimCLR算法/ 13.2.2MoCo 算法/ 13.2.3基于对比学习的 CURL算法/ 13.2.4基于对比学习的 ATC算法/ 13.2.5基于对比学习的 DIM算法/ 13.2.6对比学习和互信息理论/ 13.2.7接近基于图像增广的方法/ 13.3鲁棒的特征表示学习/ 13.3.1互模拟特征/ 13.3.2信息瓶颈特征/ 13.4使用模型预测的表示学习/ 13.5实例：鲁棒的仿真自动驾驶/第14章强化学习在智能控制中的应用/ 14.1机器人控制/ 14.1.1机械臂操作任务的控制/ 14.1.2足式机器人的运动控制/ 14.1.3多任务机器人控制/ 14.1.4面临的挑战/ 14.2电力优化控制/ 14.2.1电力管理任务/ 14.2.2需求响应/ 14.3交通指挥优化控制/ 14.3.1多信号灯合作控制/ 14.3.2大规模信号灯控制方法/ 14.3.3元强化学习信号灯控制/第15章强化学习在机器视觉中的应用/ 15.1神经网络结构搜索/ 15.1.1利用强化学习解决NAS/ 15.1.2其他前沿方法/ 15.2目标检测和跟踪中的优化/ 15.2.1强化学习与目标检测/ 15.2.2强化学习与实时目标跟踪/ 15.3视频分析/第16章强化学习在语言处理中的应用/ 16.1知识图谱系统/ 16.2智能问答系统/ 16.2.1事后目标回放法/ 16.2.2多任务对话系统/ 16.3机器翻译系统/ 16.3.1NMT中奖励的计算/ 16.3.2策略梯度方差处理/第17章强化学习在其他领域中的应用/ 17.1医疗健康系统/ 17.1.1动态治疗方案/ 17.1.2重症监护/ 17.1.3自动医疗诊断/ 17.2个性化推荐系统/ 17.2.1策略优化方法/ 17.2.2基于图的对话推荐/ 17.3股票交易系统/ 17.3.1FinRL强化学习框架/ 17.3.2FinRL训练示例/

强化学习 前沿算法与应用

库存： {{selectedSku?.stock}} 库存充足

上架到店铺

强化学习前沿算法与应用