您好,欢迎来到聚文网。 登录 免费注册
强化学习

强化学习

  • 字数: 448
  • 出版社: 电子工业
  • 作者: 编者:余欣航|
  • 商品条码: 9787121476617
  • 版次: 1
  • 开本: 16开
  • 页数: 267
  • 出版年份: 2024
  • 印次: 1
定价:¥69.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书详细介绍了强化学 习的理论推导、算法细节。 全书共12章,包括强化学习 概述、马尔可夫决策过程。 退化的强化学习问题、环境 已知的强化学习问题、基于 价值的强化学习算法、基于 策略的强化学习算法、AC 型算法、基于模型的强化学 习算法等相关知识。本书系 统性强、概念清晰,内容简 明通俗。除了侧重于理论推 导,本书还提供了许多便于 读者理解的例子,以及大量 被实践证明有效的算法技巧 ,旨在帮助读者进一步了解 强化学习领域的相关知识, 提升其现实中的工程能力。 本书可作为高等院校数 学、计算机、人工智能等相 关专业的强化学习教材,但 需要有机器学习、深度学习 等前置课程作为基础。
目录
第1章 绪论 1.1 强化学习是什么 1.2 强化学习的基本思想 1.2.1 从环境中产生数据 1.2.2 求解优策略 1.3 强化学习为什么重要 1.4 本书内容介绍 参考文献 第2章 马尔可夫决策过程 2.1 马尔可夫过程 2.2 马尔可夫决策过程的定义 2.3 马尔可夫过程与马尔可夫决策过程的对比 2.4 马尔可夫决策过程的分类 2.4.1 马尔可夫决策过程是否发生退化 2.4.2 环境是否已知 2.4.3 环境的确定性与随机性 2.4.4 马尔可夫决策过程的时齐性 2.4.5 状态与动作的连续性 *2.4.6 时间的连续性 2.4.7 小结 2.5 马尔可夫决策过程的奖励函数 思考题 参考文献 第3章 退化的强化学习问题 3.1 盲盒售货机问题 3.2 探索-利用困境 3.3 各种不同的探索策略 3.3.1 贪心策略 3.3.2 玻尔兹曼探索策略 3.3.3 上置信界策略 3.4 总结 思考题 参考文献 第4章 优控制 4.1 基于价值的思想 4.1.1 三连棋游戏策略 4.1.2 价值的定义 4.1.3 基于价值和基于策略 4.1.4 小结 思考题 4.2 动态规划 4.2.1 策略迭代法 4.2.2 雅可比迭代法 4.2.3 值迭代法 4.2.4 软提升 4.2.5 小结 思考题 4.3 LQR控制 4.3.1 基本LQR控制问题 4.3.2 LQR控制器

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网