Python深度强化学习入门:强化学习和深度学习的搜索与控制--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

人工智能无疑是近年来热门词汇，而深度强化学习又是热门中的热门，对于想要进入人工智能行业的您来说，节省时间、快速入门首要问题。再多的知识也要实践，现场实操，才是快速学习、消化的通路。《Python深度强化学习入门：强化学习和深度学习的搜索与控制》正是这样一本，从基础理论讲起，以实操驱动的方式全面展示技巧和方法，为您提供了快速入门深度强化学习的途径，找到了学习的方法。

内容简介

本书共7章。第1章介绍了机器学习的分类、强化学习的学习机制以及深度强化学习的概念；第2章通过强化学习的基本概念、马尔可夫决策过程和贝尔曼方程、贝尔曼方程的求解方法、无模型控制等介绍了强化学习的基本算法；第3章通过深度学习、卷积神经网络(CNN)、循环神经网络(RNN)介绍了强化学习中深度学习的特征提取方法；第4章通过行动价值函数的网络表示、策略函数的网络表示介绍了深度强化学习的实现；第5章通过策略梯度法的连续控制、学习算法和策略模型等，详细介绍了深度强化学习在连续控制问题中的应用及具体实现；第6章通过巡回推销员问题和魔方问题详细介绍了深度强化学习在组合优化中的应用及具体实现；第7章通过SeqGAN的文本生成和神经网络架构的搜索详细介绍了深度强化学习在时间序列数据生成的应用。在附录中还给出了Colaboratory和Docker等深度强化学习开发环境的构建。

作者简介

伊藤多一，1995年在名古屋大学理学研究所完成博士课程，井获得博士学位。后一直从事粒子物理学研究，直到2004年3月。同年，加入了一家专门从事合同数据分析的风险公司，井参与了多个数据分析项目。自2013年以来，他一直在BrainPad公司从事机器学习的广告效果分析工作。自2016年以来，通过深度学习参与了图像分析项目。

译者序
原书前言
阅读本书需要的知识基础
本书的结构
本书示例的运行环境
第1部分基础篇
第1章强化学习的用途
1.1 机器学习的分类
1.1.1 监督学习
1.1.2 无监督学习
1.1.3 强化学习
1.2 强化学习的学习机制
1.3 深度强化学习
第2章强化学习的算法
2.1 强化学习的基本概念
2.1.1 强化学习的问题设定
2.1.2 强化学习的机制
2.1.3 关于本章的内容
2.2 马尔可夫决策过程和贝尔曼方程
2.2.1 马尔可夫决策过程
2.2.2 贝尔曼方程
2.3 贝尔曼方程的求解方法
2.3.1 动态规划法
2.3.2 蒙特卡洛法
2.3.3 TD学习法
2.4 无模型控制
2.4.1 策略改进的方法
2.4.2 基于价值的方法
2.4.3 基于策略的方法
2.4.4 Actor-Critic法
第3章深度学习的特征提取
3.1 深度学习
3.1.1 深度学习的出现和背景
3.1.2 什么是深度学习？
3.1.3 深度学习平台
3.2 CNN
3.2.1 什么是CNN
3.2.2 CNN的应用
3.3 RNN
3.3.1 什么是RNN
3.3.2 什么是LSTM
3.3.3 RNN的应用
第4章深度强化学习的实现
4.1 深度强化学习的发展
4.1.1 DQN的出现
4.1.2 用于强化学习的模拟器
4.2 行动价值函数的网络表示
4.2.1 DQN算法
4.2.2 DQN算法的实现
4.2.3 学习结果
4.3 策略函数的网络表示
4.3.1 Actor的实现
4.3.2 Critic的实现
4.3.3 示例代码的介绍
4.3.4 学习结果
第5章连续控制的应用
5.1 策略梯度法的连续控制
5.1.1 连续控制
5.1.2 策略梯度法学习
5.2 学习算法和策略模型
5.2.1 算法概况
5.2.2 REINFORCE算法
5.2.3 基准函数的引入
5.2.4 高斯模型的策略概率
5.3 连续行动模拟器
5.3.1 pybullet-gym
5.3.2 Walker2D
5.4 算法的实现
5.4.1 算法实现的总体构成
5.4.2 train.py
5.4.3 policy_estimator.py
5.4.4 value_estimator.py
5.5 学习结果及预测控制
5.5.1 学习结果
5.5.2 预测控制的结果
5.5.3 其他环境模型的应用
5.5.4 总结
第6章组合优化的应用
6.1 组合优化中的应用
6.1.1 关于组合优化
6.2 巡回推销员问题
6.2.1 通过强化学习解决巡回推销员问题
6.2.2 实现概要
6.2.3 运行结果
6.2.4 今后的发展趋势
6.3 魔方问题
6.3.1 用强化学习解决魔方问题
6.3.2 实现概要
6.3.3 实现结果
6.3.4 AC+MCTS算法的预测结果
6.3.5 今后的发展趋势
6.4 总结
第7章序列数据生成的应用
7.1 根据SeqGAN的文本生成
7.1.1 GAN
7.1.2 SeqGAN
7.1.3 输入数据
7.1.4 使用的算法及其实现
7.1.5 实现结果
7.1.6 总结
7.2 神经网络架构的搜索
7.2.1 神经体系结构搜索
7.2.2 语义分割
7.2.3 U-Net
7.2.4 文件目录结构
7.2.5 输入数据
7.2.6 所使用的算法
7.2.7 实现结果
7.2.8 总结
附录开发环境的构建
附录A Colaboratory的GPU环境构建
A.1 Colaboratory
A.2 Colaboratory的使用方法
附录B 通过Docker进行Windows环境的构建
B.1 介绍
B.2 Docker的安装
B.3 Docker映像的创建
B.4 容器的启动
B.5 运行情况的查看
参考文献

Python深度强化学习入门:强化学习和深度学习的搜索与控制

库存： {{selectedSku?.stock}} 库存充足

上架到店铺