深度强化学习理论与实践/计算机技术开发与应用丛书--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书比较全面、系统地介绍了深度强化学习的理论和算法，并配有大量的案例和编程实现的代码。全书核心内容可以分为3部分，第一部分为经典强化学习，包括第2～4章，主要内容有动态规划法、蒙特卡罗法、时序差分法；第二部分为深度强化学习，包括第6～8章，主要内容有值函数近似算法、策略梯度算法、策略梯度法进阶；第三部分重点介绍深度强化学习的经典应用案例——AlphaGo系列算法。另外，作为理论和算法的辅助，第1章介绍强化学习的模型，第5章简单介绍深度学习和PyTorch。本书对理论、模型和算法的描述比较数学化，笔者力求做到用严谨、清晰、简洁的数学语言来写作；几乎每个算法配有一个或多个测试案例，便于读者理解理论和算法；每个案例都配有编程实现的代码，便于读者理论联系实际，并亲自上手实践。为降低读者编写代码的难度，本书所有案例的代码都是可以独立运行的，并且尽量减少了对依赖包的使用。本书可以作为理工科相关专业研究生的学位课教材，也可以作为人工智能、机器学习相关专业高年级本科生的选修课教材，还可以作为相关领域学术研究人员、教师和工程技术人员的参考资料。

第1章强化学习的模型 1.1 强化学习简介 1.1.1 初识强化学习 1.1.2 强化学习的历史 1.1.3 强化学习与机器学习的关系 1.2 强化学习的模型 1.2.1 强化学习基本模型和要素 1.2.2 强化学习的执行过程 1.2.3 强化学习的数学模型——马尔可夫决策过程 1.2.4 环境模型案例 1.3 Gym介绍 1.3.1 Gym简介 1.3.2 Gym安装 1.3.3 Gym的环境描述和案例 1.3.4 在Gym中添加自编环境 1.3.5 直接使用自编环境第2章动态规划法 2.1 动态规划法简介 2.2 值函数和贝尔曼方程 2.2.1 累积折扣奖励 2.2.2 值函数 2.2.3 贝尔曼方程 2.3 策略评估 2.4 策略改进 2.5 最优值函数和最优策略 2.6 策略迭代和值迭代 2.7 动态规划法求解强化学习案例第3章蒙特卡罗法 3.1 蒙特卡罗法简介 3.2 蒙特卡罗策略评估 3.2.1 蒙特卡罗策略评估 3.2.2 增量式蒙特卡罗策略评估 3.2.3 蒙特卡罗策略评估案例 3.2.4 蒙特卡罗和动态规划策略评估的对比 3.3 蒙特卡罗强化学习 3.3.1 蒙特卡罗策略改进 3.3.2 起始探索蒙特卡罗强化学习 3.3.3 贪婪策略蒙特卡罗强化学习 3.3.4 蒙特卡罗强化学习案例 3.4 异策略蒙特卡罗强化学习 3.4.1 重要性采样 3.4.2 异策略蒙特卡罗策略评估 3.4.3 增量式异策略蒙特卡罗策略评估 3.4.4 异策略蒙特卡罗强化学习 3.4.5 异策略蒙特卡罗强化学习案例 3.5 .蒙特卡罗树搜索 3.5.1 MCTS的基本思想 3.5.2 MCTS的算法流程 3.5.3 基于MCTS的强化学习算法 3.5.4 案例和代码

深度强化学习理论与实践/计算机技术开发与应用丛书

库存： {{selectedSku?.stock}} 库存充足