您好,欢迎来到聚文网。 登录 免费注册
深度强化学习理论与实践/计算机技术开发与应用丛书

深度强化学习理论与实践/计算机技术开发与应用丛书

  • 字数: 520
  • 出版社: 清华大学
  • 作者: 编者:龙强//章胜|责编:赵佳霓
  • 商品条码: 9787302625544
  • 版次: 1
  • 开本: 16开
  • 页数: 355
  • 出版年份: 2023
  • 印次: 1
定价:¥89 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书比较全面、系统地 介绍了深度强化学习的理论 和算法,并配有大量的案例 和编程实现的代码。全书核 心内容可以分为3部分,第 一部分为经典强化学习,包 括第2~4章,主要内容有动 态规划法、蒙特卡罗法、时 序差分法;第二部分为深度 强化学习,包括第6~8章, 主要内容有值函数近似算法 、策略梯度算法、策略梯度 法进阶;第三部分重点介绍 深度强化学习的经典应用案 例——AlphaGo系列算法。 另外,作为理论和算法的辅 助,第1章介绍强化学习的 模型,第5章简单介绍深度 学习和PyTorch。 本书对理论、模型和算 法的描述比较数学化,笔者 力求做到用严谨、清晰、简 洁的数学语言来写作;几乎 每个算法配有一个或多个测 试案例,便于读者理解理论 和算法;每个案例都配有编 程实现的代码,便于读者理 论联系实际,并亲自上手实 践。为降低读者编写代码的 难度,本书所有案例的代码 都是可以独立运行的,并且 尽量减少了对依赖包的使用 。 本书可以作为理工科相 关专业研究生的学位课教材 ,也可以作为人工智能、机 器学习相关专业高年级本科 生的选修课教材,还可以作 为相关领域学术研究人员、 教师和工程技术人员的参考 资料。
目录
第1章 强化学习的模型 1.1 强化学习简介 1.1.1 初识强化学习 1.1.2 强化学习的历史 1.1.3 强化学习与机器学习的关系 1.2 强化学习的模型 1.2.1 强化学习基本模型和要素 1.2.2 强化学习的执行过程 1.2.3 强化学习的数学模型——马尔可夫决策过程 1.2.4 环境模型案例 1.3 Gym介绍 1.3.1 Gym简介 1.3.2 Gym安装 1.3.3 Gym的环境描述和案例 1.3.4 在Gym中添加自编环境 1.3.5 直接使用自编环境 第2章 动态规划法 2.1 动态规划法简介 2.2 值函数和贝尔曼方程 2.2.1 累积折扣奖励 2.2.2 值函数 2.2.3 贝尔曼方程 2.3 策略评估 2.4 策略改进 2.5 最优值函数和最优策略 2.6 策略迭代和值迭代 2.7 动态规划法求解强化学习案例 第3章 蒙特卡罗法 3.1 蒙特卡罗法简介 3.2 蒙特卡罗策略评估 3.2.1 蒙特卡罗策略评估 3.2.2 增量式蒙特卡罗策略评估 3.2.3 蒙特卡罗策略评估案例 3.2.4 蒙特卡罗和动态规划策略评估的对比 3.3 蒙特卡罗强化学习 3.3.1 蒙特卡罗策略改进 3.3.2 起始探索蒙特卡罗强化学习 3.3.3 贪婪策略蒙特卡罗强化学习 3.3.4 蒙特卡罗强化学习案例 3.4 异策略蒙特卡罗强化学习 3.4.1 重要性采样 3.4.2 异策略蒙特卡罗策略评估 3.4.3 增量式异策略蒙特卡罗策略评估 3.4.4 异策略蒙特卡罗强化学习 3.4.5 异策略蒙特卡罗强化学习案例 3.5 .蒙特卡罗树搜索 3.5.1 MCTS的基本思想 3.5.2 MCTS的算法流程 3.5.3 基于MCTS的强化学习算法 3.5.4 案例和代码

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网