您好,欢迎来到聚文网。 登录 免费注册
强化学习基础原理与应用

强化学习基础原理与应用

  • 字数: 615
  • 出版社: 清华大学
  • 作者: 编者:张百珂|
  • 商品条码: 9787302685913
  • 适读年龄: 12+
  • 版次: 1
  • 开本: 16开
  • 页数: 394
  • 出版年份: 2025
  • 印次: 1
定价:¥99 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书循序渐进地讲解了 使用Python语言实现强化学 习的核心算法开发的知识, 内容涵盖了数据处理、算法 、大模型等知识,并通过具 体实例的实现过程演练了各 个知识点的使用方法和使用 流程。《强化学习基础、原 理与应用》共分为17章,主 要内容包括强化学习基础、 马尔可夫决策过程、蒙特卡 洛方法、Q-learning与贝尔 曼方程、时序差分学习和 SARSA算法、DQN算法、 DDQN算法、竞争DQN算法 、REINFORCE算法、 Actor-Critic算法、PPO算法 、TRPO算法、连续动作空 间的强化学习、值分布式算 法、基于模型的强化学习、 多智能体强化学习实战: Predator-Prey游戏及自动驾 驶系统。本书内容简洁而不 失技术深度,以极简的文字 介绍了复杂的案例,易于阅 读和理解。 本书适用于已经了解 Python语言基础语法的读者 ,想进一步学习强化学习、 机器学习、深度学习及相关 技术的读者,还可作为大专 院校相关专业的师生用书和 培训机构的教材使用。
作者简介
张百珂,计算机硕士,前百度云研发工程师,在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营,拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事与城市大数据中心的开发和建设工作,将深度学习运用到数字经济利领域。
目录
第1章 强化学习基础 1.1 强化学习概述 1.1.1 强化学习的背景 1.1.2 强化学习的核心特点 1.1.3 强化学习与其他机器学习方法的区别 1.2 强化学习的应用领域 1.2.1 机器人控制与路径规划 1.2.2 游戏与虚拟环境 1.2.3 金融与投资决策 1.2.4 自动驾驶与智能交通 1.2.5 自然语言处理 1.3 强化学习中的常用概念 1.3.1 智能体、环境与交互 1.3.2 奖励与回报的概念 1.3.3 马尔可夫性质与马尔可夫决策过程 1.3.4 策略与价值函数 第2章 马尔可夫决策过程 2.1 马尔可夫决策过程的定义 2.1.1 马尔可夫决策过程的核心思想 2.1.2 马尔可夫决策过程的形式化定义 2.2 马尔可夫决策过程的组成要素 2.2.1 状态空间与状态的定义 2.2.2 行动空间与行动的定义 2.2.3 奖励函数的作用与定义 2.2.4 转移概率函数的意义与定义 2.2.5 实例分析:构建一个简单的MDP 2.3 值函数与策略 2.3.1 值函数与策略的定义 2.3.2 值函数与策略的用法举例 2.4 贝尔曼方程 2.4.1 贝尔曼预测方程与策略评估 2.4.2 贝尔曼最优性方程与值函数之间的关系 2.4.3 贝尔曼最优性方程与策略改进 2.4.4 动态规划与贝尔曼方程的关系 2.4.5 贝尔曼方程在强化学习中的应用 第3章 蒙特卡洛方法 3.1 蒙特卡洛预测 3.1.1 蒙特卡洛预测的核心思想 3.1.2 蒙特卡洛预测的步骤与流程 3.1.3 蒙特卡洛预测的样本更新与更新规则 3.2 蒙特卡洛控制 3.2.1 蒙特卡洛控制的目标与意义 3.2.2 蒙特卡洛控制的策略评估与改进 3.2.3 蒙特卡洛控制的更新规则与收敛性 3.3 探索与策略改进 3.3.1 探索与利用的平衡再探讨 3.3.2 贪婪策略与ε-贪婪策略的比较 3.3.3 改进探索策略的方法 3.3.4 探索策略对蒙特卡洛方法的影响 第4章 Q-learning与贝尔曼方程 4.1 Q-learning算法的原理 4.1.1 Q-learning的动作值函数 4.1.2 Q-learning算法中的贪婪策略与探索策略 4.1.3 Q-learning算法的收敛性与收敛条件 4.2 贝尔曼方程在Q-learning算法中的应用 4.2.1 Q-learning算法与贝尔曼最优性方程的关系 4.2.2 贝尔曼方程的迭代计算与收敛 4.2.3 Q-learning算法中贝尔曼方程的实际应用 4.3 强化学习中的Q-learning 4.3.1 ε-贪婪策略与探索的关系 4.3.2 Q-learning中探索策略的变化与优化 4.3.3 探索策略对Q-learning性能的影响分析 4.3.4 使用Q-learning寻找某股票的买卖点 第5章 时序差分学习和SARSA算法 5.1 时序差分预测 5.1.1 时序差分预测的核心思想 5.1.2 时序差分预测的基本公式 5.1.3 时序差分预测与状态值函数 5.1.4 时序差分预测的实例分析 5.2 SARSA算法 5.2.1 SARSA算法的核心原理和步骤 5.2.2 SARSA算法的更新规则 5.2.3 SARSA算法的收敛性与收敛条件 5.2.4 SARSA算法实例分析 5.3 Q-learning算法的时序差分更新 5.3.1 时序差分学习与Q-learning的结合 5.3.2 Q-learning的时序差分更新算法 第6章 DQN算法 6.1 引言与背景 6.2 DQN算法的基本原理 6.3 DQN的网络结构与训练过程 6.3.1 DQN的神经网络结构 6.3.2 DQN算法的训练过程 6.3.3 经验回放 6.3.4 目标网络 6.4 DQN算法的优化与改进 6.4.1 DDQN 6.4.2 竞争DQN 6.4.3 优先经验回放 6.5 基于DQN算法的自动驾驶程序 6.5.1 项目介绍 6.5.2 具体实现 第7章 DDQN算法 7.1 DDQN对标准DQN的改进 7.2 双重深度Q网络的优势 7.3 《超级马里奥》游戏的DDQN强化学习实战 7.3.1 项目介绍 7.3.2 gym_super_mario_bros库的介绍 7.3.3 环境预处理 7.3.4 创建DDQN模型 7.3.5 模型训练和测试 第8章 竞争DQN算法 8.1 竞争DQN算法原理 8.1.1 竞争DQN算法的动机和核心思想 8.1.2 竞争DQN网络架构 8.2 竞争DQN的优势与改进 8.2.1 分离状态价值和动作优势的好处 8.2.2 优化训练效率与稳定性 8.2.3 解决过度估计问题的潜力 8.3 股票交易策略系统 8.3.1 项目介绍 8.3.2 数据准备 8.3.3 数据拆分与时间序列 8.3.4 Environment(环境) 8.3.5 DQN算法实现 8.3.6 DDQN算法的实现 8.3.7 竞争DQN算法的实现 第9章 REINFORCE算法 9.1 策略梯度介绍 9.1.1 策略梯度的重要概念和特点 9.1.2 策略梯度定理的数学推导 9.2 REINFORCE算法基础 9.2.1 REINFORCE算法的基本原理 9.2.2 REINFORCE算法的更新规则 9.2.3 基线函数与REINFORCE算法的优化 第10章 Actor-Crit

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网