智能决策：方法与技术--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

智能决策是迈向通用人工智能的必经之路。2016年，围棋智能体AlphaGo战胜韩国棋手李世石，智能决策引起人们的广泛关注；2022年底，ChatGPT火爆全球，凸显出大模型的价值。可以预见，神经网络大模型将进一步推动智能决策在自主学习和应用范围上的突破。本书围绕智能决策领域涉及的基本方法与技术展开介绍，主要内容包括：智能决策与智能体的基本概念，智能体所处环境的分类与建模，确定环境下智能体的搜索推理决策方法，不确定环境下决策策略强化学习方法、博弈学习方法，复杂策略的深层神经网络建模与应用，以及网格世界游戏、“雅达利”游戏、围棋对弈、“星际争霸”即时战略对抗游戏、陆战对抗等实例下智能体的决策策略生成技术和部分Python代码实现。

目录
前言
第1章智能决策概述 1
1.1 智能决策的内涵 1
1.1.1 基本概念 1
1.1.2 两个关键问题 2
1.1.3 虚拟环境 3
1.2 当前成果与技术流派 6
1.2.1 当前成果 6
1.2.2 三大流派 9
1.3 未来应用与发展方向 10
1.3.1 为复杂体系提供辅助决策 10
1.3.2 为无人系统提升自主能力 12
第2章基本理论与模型 14
2.1 决策的基本理论 14
2.1.1 人类决策的一般过程 14
2.1.2 决策的认知心理学描述 16
2.2 智能体模型理论 18
2.2.1 智能体的基本概念 18
2.2.2 与一般决策的不同 20
2.3 知识与环境描述 21
2.3.1 知识表示 21
2.3.2 环境描述方法 22
2.3.3 环境与智能体分类 23
第3章确定环境下的搜索推理决策方法 27
3.1 智能体的描述与分析 27
3.1.1 智能体的决策问题 27
3.1.2 问题的形式化 28
3.1.3 问题蕴含的知识 29
3.2 搜索推理决策方法 31
3.2.1 智能体的决策 31
3.2.2 搜索算法基础 32
3.2.3 无信息搜索策略 36
3.2.4 启发式搜索策略 41
3.3 自动规划与知识描述 42
3.3.1 集合论描述 42
3.3.2 经典规划描述 47
3.3.3 时态规划模型 52
第4章不确定环境下的决策策略生成方法 54
4.1 不确定环境下的基本决策方法 54
4.1.1 随机不确定环境下的最大期望效用决策 54
4.1.2 博弈不确定环境下的纯策略决策 56
4.1.3 博弈不确定环境下的混合策略决策 64
4.2 决策策略的强化学习算法 68
4.2.1 强化学习的基本概念 68
4.2.2 有模型的强化学习 70
4.2.3 无模型的强化学习 75
第5章神经网络与决策策略建模 87
5.1 神经网络的基本概念 87
5.1.1 神经网络的定义 87
5.1.2 神经元模型 89
5.2 全连接反向传播与监督学习 91
5.2.1 反向传播算法 91
5.2.2 前馈多层神经网络 96
5.2.3 监督学习下的损失函数 97
5.2.4 参数初始化与参数更新方法 100
5.3 卷积神经网络及其反向传播 106
5.3.1 卷积神经网络结构 106
5.3.2 卷积神经网络中的反向传播 114
5.4 神经网络在决策策略建模中的应用 117
5.4.1 拟合状态价值函数与直接生成动作 117
5.4.2 策略网络的训练 119
5.4.3 Actor-Critic方法 121
第6章简单游戏中的智能决策技术 124
6.1 OpenAI Gym与虚拟环境 124
6.2 表格Q学习与网格世界游戏决策 125
6.2.1 游戏环境与Q学习实现 125
6.2.2 湖面溜冰游戏决策 128
6.3 DQN与打砖块游戏决策 129
6.3.1 打砖块游戏环境 129
6.3.2 DQN算法过程 130
6.3.3 DQN核心代码 136
6.3.4 打砖块游戏智能体的实现 142
第7章完全信息下的棋类智能决策技术 149
7.1 AlphaZero算法原理 149
7.1.1 基本思路 149
7.1.2 蒙特卡罗树搜索基础 151
7.1.3 自我博弈与神经网络设计 156
7.2 棋盘游戏环境实现 160
7.2.1 N子棋走子 160
7.2.2 棋盘环境 164
7.3 AlphaZero算法实现 170
7.3.1 自我博弈实现 170
7.3.2 蒙特卡罗树搜索 174
7.3.3 策略价值网络 176
7.3.4 训练与决策 183
第8章不完全信息下的对抗策略的博弈学习 193
8.1 博弈学习算法 193
8.1.1 博弈学习的基本概念 193
8.1.2 博弈及其策略的形式化描述 194
8.1.3 博弈学习动力学及学习算法 196
8.2 “星际争霸”游戏对抗问题分析 200
8.2.1 “星际争霸”游戏环境 200
8.2.2 决策问题分析 206
8.3 AlphaStar中的决策神经网络和博弈学习技术 207
8.3.1 动作体系与状态观测量 207
8.3.2 神经网络结构概况与监督学习 209
8.3.3 神经网络强化学习的基本方法 212
8.3.4 加权虚拟自我博弈与联盟学习 214
第9章战术级陆战对抗策略的智能生成 216
9.1 陆战人机对抗环境 216
9.1.1 陆战对抗场景 216
9.1.2 庙算平台的环境接口 218
9.2 智能体的基本框架 219
9.2.1 智能体对棋子的控制 219
9.2.2 高层动作的实施逻辑 222
9.3 基于先验收益的目标点位选择的初始策略 223
9.3.1 目标点位选择问题分析 223
9.3.2 博弈模型构建 224
9.3.3 收益值计算与混合策略求解 225
9.4 目标点位选择策略的博弈学习 232
9.4.1 博弈学习架构设计 232
9.4.2 神经网络结构设计 234
9.4.3 神经网络参数博弈学习 238
参考文献 244
附录A 神经网络的使用 246
A.1 PyTorch框架下神经网络的使用 246
A.2 TensorFlow Keras框架下神经网络的使用 248
附录B 庙算平台接口 251
B.1 态势接口 251
B.2 机动动作接口 256

智能决策：方法与技术

库存： {{selectedSku?.stock}} 库存充足