强化学习基础原理与应用--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书循序渐进地讲解了使用Python语言实现强化学习的核心算法开发的知识，内容涵盖了数据处理、算法、大模型等知识，并通过具体实例的实现过程演练了各个知识点的使用方法和使用流程。《强化学习基础、原理与应用》共分为17章，主要内容包括强化学习基础、马尔可夫决策过程、蒙特卡洛方法、Q-learning与贝尔曼方程、时序差分学习和 SARSA算法、DQN算法、 DDQN算法、竞争DQN算法、REINFORCE算法、 Actor-Critic算法、PPO算法、TRPO算法、连续动作空间的强化学习、值分布式算法、基于模型的强化学习、多智能体强化学习实战： Predator-Prey游戏及自动驾驶系统。本书内容简洁而不失技术深度，以极简的文字介绍了复杂的案例，易于阅读和理解。本书适用于已经了解 Python语言基础语法的读者，想进一步学习强化学习、机器学习、深度学习及相关技术的读者，还可作为大专院校相关专业的师生用书和培训机构的教材使用。

作者简介

张百珂，计算机硕士，前百度云研发工程师，在大规模机器学习、深度学习、数据搜索、行业垂直应用、研发管理等领域拥有丰富经验。在企业智能化转型、业务线上化经营，拥有丰富的大规模搜索架构、个性化推荐架构、机器学习系统架构经验和技术团队管理经验。现在从事与城市大数据中心的开发和建设工作，将深度学习运用到数字经济利领域。

第1章强化学习基础 1.1 强化学习概述 1.1.1 强化学习的背景 1.1.2 强化学习的核心特点 1.1.3 强化学习与其他机器学习方法的区别 1.2 强化学习的应用领域 1.2.1 机器人控制与路径规划 1.2.2 游戏与虚拟环境 1.2.3 金融与投资决策 1.2.4 自动驾驶与智能交通 1.2.5 自然语言处理 1.3 强化学习中的常用概念 1.3.1 智能体、环境与交互 1.3.2 奖励与回报的概念 1.3.3 马尔可夫性质与马尔可夫决策过程 1.3.4 策略与价值函数第2章马尔可夫决策过程 2.1 马尔可夫决策过程的定义 2.1.1 马尔可夫决策过程的核心思想 2.1.2 马尔可夫决策过程的形式化定义 2.2 马尔可夫决策过程的组成要素 2.2.1 状态空间与状态的定义 2.2.2 行动空间与行动的定义 2.2.3 奖励函数的作用与定义 2.2.4 转移概率函数的意义与定义 2.2.5 实例分析：构建一个简单的MDP 2.3 值函数与策略 2.3.1 值函数与策略的定义 2.3.2 值函数与策略的用法举例 2.4 贝尔曼方程 2.4.1 贝尔曼预测方程与策略评估 2.4.2 贝尔曼最优性方程与值函数之间的关系 2.4.3 贝尔曼最优性方程与策略改进 2.4.4 动态规划与贝尔曼方程的关系 2.4.5 贝尔曼方程在强化学习中的应用第3章蒙特卡洛方法 3.1 蒙特卡洛预测 3.1.1 蒙特卡洛预测的核心思想 3.1.2 蒙特卡洛预测的步骤与流程 3.1.3 蒙特卡洛预测的样本更新与更新规则 3.2 蒙特卡洛控制 3.2.1 蒙特卡洛控制的目标与意义 3.2.2 蒙特卡洛控制的策略评估与改进 3.2.3 蒙特卡洛控制的更新规则与收敛性 3.3 探索与策略改进 3.3.1 探索与利用的平衡再探讨 3.3.2 贪婪策略与ε-贪婪策略的比较 3.3.3 改进探索策略的方法 3.3.4 探索策略对蒙特卡洛方法的影响第4章 Q-learning与贝尔曼方程 4.1 Q-learning算法的原理 4.1.1 Q-learning的动作值函数 4.1.2 Q-learning算法中的贪婪策略与探索策略 4.1.3 Q-learning算法的收敛性与收敛条件 4.2 贝尔曼方程在Q-learning算法中的应用 4.2.1 Q-learning算法与贝尔曼最优性方程的关系 4.2.2 贝尔曼方程的迭代计算与收敛 4.2.3 Q-learning算法中贝尔曼方程的实际应用 4.3 强化学习中的Q-learning 4.3.1 ε-贪婪策略与探索的关系 4.3.2 Q-learning中探索策略的变化与优化 4.3.3 探索策略对Q-learning性能的影响分析 4.3.4 使用Q-learning寻找某股票的买卖点第5章时序差分学习和SARSA算法 5.1 时序差分预测 5.1.1 时序差分预测的核心思想 5.1.2 时序差分预测的基本公式 5.1.3 时序差分预测与状态值函数 5.1.4 时序差分预测的实例分析 5.2 SARSA算法 5.2.1 SARSA算法的核心原理和步骤 5.2.2 SARSA算法的更新规则 5.2.3 SARSA算法的收敛性与收敛条件 5.2.4 SARSA算法实例分析 5.3 Q-learning算法的时序差分更新 5.3.1 时序差分学习与Q-learning的结合 5.3.2 Q-learning的时序差分更新算法第6章 DQN算法 6.1 引言与背景 6.2 DQN算法的基本原理 6.3 DQN的网络结构与训练过程 6.3.1 DQN的神经网络结构 6.3.2 DQN算法的训练过程 6.3.3 经验回放 6.3.4 目标网络 6.4 DQN算法的优化与改进 6.4.1 DDQN 6.4.2 竞争DQN 6.4.3 优先经验回放 6.5 基于DQN算法的自动驾驶程序 6.5.1 项目介绍 6.5.2 具体实现第7章 DDQN算法 7.1 DDQN对标准DQN的改进 7.2 双重深度Q网络的优势 7.3 《超级马里奥》游戏的DDQN强化学习实战 7.3.1 项目介绍 7.3.2 gym_super_mario_bros库的介绍 7.3.3 环境预处理 7.3.4 创建DDQN模型 7.3.5 模型训练和测试第8章竞争DQN算法 8.1 竞争DQN算法原理 8.1.1 竞争DQN算法的动机和核心思想 8.1.2 竞争DQN网络架构 8.2 竞争DQN的优势与改进 8.2.1 分离状态价值和动作优势的好处 8.2.2 优化训练效率与稳定性 8.2.3 解决过度估计问题的潜力 8.3 股票交易策略系统 8.3.1 项目介绍 8.3.2 数据准备 8.3.3 数据拆分与时间序列 8.3.4 Environment（环境） 8.3.5 DQN算法实现 8.3.6 DDQN算法的实现 8.3.7 竞争DQN算法的实现第9章 REINFORCE算法 9.1 策略梯度介绍 9.1.1 策略梯度的重要概念和特点 9.1.2 策略梯度定理的数学推导 9.2 REINFORCE算法基础 9.2.1 REINFORCE算法的基本原理 9.2.2 REINFORCE算法的更新规则 9.2.3 基线函数与REINFORCE算法的优化第10章 Actor-Crit

强化学习基础原理与应用

库存： {{selectedSku?.stock}} 库存充足