您好,欢迎来到聚文网。 登录 免费注册
多智能体机器学习

多智能体机器学习

多智能体机器学习,适合学习和实践的著作
  • 字数: 228千字
  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: (加)霍华德 M.施瓦兹(Howard M.Schwartz) 著;连晓峰 等 译
  • 出版日期: 2017-07-01
  • 商品条码: 9787111569602
  • 版次: 1
  • 开本: 16开
  • 页数: 185
  • 出版年份: 2017
定价:¥69 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书主要介绍了多智能体机器人强化学习的相关内容。全书共6章,首先介绍了几种常用的监督式学习方法,在此基础上,介绍了单智能体强化学习中的学习结构、值函数、马尔科夫决策过程、策略迭代、时间差分学习、Q学习和资格迹等概念和方法。然后,介绍了双人矩阵博弈问题、多人随机博弈学习问题,并通过3种博弈游戏详细介绍了纳什均衡、学习算法、学习自动机、滞后锚算法等内容,并提出LR-I滞后锚算法和指数移动平均Q学习算法等,并进行了分析比较。接下来,介绍了模糊系统和模糊学习,并通过仿真示例详细分析算法。后,介绍了群智能学习进化以及性格特征概念和应用。全书内容丰富,重点突出。
作者简介
霍华德 M.施瓦兹,博士,在加拿大魁北克蒙特利尔的麦吉尔大学获得工学学士学位,在美国马萨诸塞州剑桥麻省理工学院获得硕士和博士学位,现为加拿大渥太华卡尔顿大学系统与计算机工程系的教授,研究领域包括自适应和智能控制系统、机器人、机器学习、多智能体学习、系统辨识和状态估计。
目录
译者序
原书前言
第1章监督式学习概述
11LS算法
12RLS算法
13LMS算法
14随机逼近法
参考文献
第2章单智能体强化学习
21简介
22n臂赌博机问题
23学习结构
24值函数
25最优值函数
25.1网格示例
26MDP
27学习值函数
28策略迭代
29时间差分学习
210状态一行为函数的时间差分学习
211Q学习
212资格迹
参考文献
第3章双人矩阵博弈学习
31矩阵博弈
32双人矩阵博弈中的纳什均衡
33双人零和矩阵博弈中的线性规划
34学习算法
35梯度上升算法
36WoLF-IGA算法
37PHC算法
38WoLF-PHC算法
39矩阵博弈中的分散式学习
310学习自动机
311线性回报一无为算法
312线性回报一惩罚算法
313滞后锚算法
314LR.滞后锚算法
314.1仿真
参考文献
第4章多人随机博弈学习
41简介
42多人随机博弈
43极大极小Q学习算法
43.12x2网格博弈
44纳什Q学习算法
44.1学习过程
45单纯形算法
46Lemke-Howson算法
47纳什Q学习算法实现
48朋友或敌人Q学习算法
49无限梯度上升算法
410PHC算法
411WoLF-PHC算法
412网格世界中的疆土防御问题
412.1仿真和结果
413LR.滞后锚算法在随机博弈中的扩展
414EMAQ学习算法
415EMAQ学习与其他方法的仿真与结果比较
415.1矩阵博弈
4152随机博弈
参考文献
第5章微分博弈
51简介
52模糊系统简述
52.1模糊集和模糊规则
522模糊推理机
523模糊化与去模糊化
524模糊系统及其示例
53模糊Q学习
54FACL
55疯狂司机微分博弈
56模糊控制器结构
5.7Q(A)学习模糊推理系统
58疯狂司机博弈的仿真结果
59双车追捕者一逃跑者博弈中的学习算法
510双车博弈仿真
511疆土防御微分博弈
512疆土防御微分博弈中的形成回报
513仿真结果
513.1-个防御者对一个人侵者
5132两个防御者对一个人侵者
参考文献
第6章群智能与性格特征的进化
61简介
62群智能的进化
63环境表征
64群机器人的性格特征
65性格特征的进化
66仿真结构框架
67零和博弈示例
67.1收敛性
672仿真结果
68后续仿真实现
69机器人走出房间
610机器人跟踪目标
611小结
参考文献
摘要
原 书 前 言十年来,本人一直在教授自适应控制课程。这门课程主要是讲授系统辨识的常用经典方法,并使用经典的教材,例如Ljung\[1,2\]。该课程着重介绍了参考模型自适应控制的常用方法以及基于Lyapunov技术的非线性自适应控制方法。然而,这些理论已不再适用于当前的工程实践。因此,在本人的研究工作以及研究生课程的重点内容中进行了相应调整,增加了自适应信号处理的内容,并融合了基于最小方均(LMS)算法的自适应信道均衡和回声消除的内容。同时,课程名称也相应地从“自适应控制”变为“自适应与学习系统”。本人的研究工作仍主要集中于系统辨识和非线性自适应控制在机器人方面的应用。然而,直到21世纪初,才开始与机器人团队开展合作。目前,已能够利用常用的机器人套件和低成本的微控制器来构建可协同工作的若干个机器人。这使得“自适应与学习系统” 的研究生课程内容再次发生变化:减少了基于Lyapunov技术的非线性自适应控制方面的理论知识,取而代之的是有关强化学习的思想。这是一个全新的应用领域,机器人团队必须要学会相互协作和竞争。目前,研究生课程主要是集中于采用基于递归最小二乘(RLS)算法的系统辨识、基于参考模型的自适应控制(仍然采用Lyapunov技术)、基于LMS算法的自适应信号处理以及基于Q学习算法的强化学习。本书的前两章简要介绍了上述思想,但也足以说明这些学习算法之间的联系,以及它们之间的相同之处和不同之处。与这些内容相关的其他材料可详见文献\[2-4\]。由此,进一步的研究工作开始着重于机器人团队如何学习以实现相互合作。这些研究工作用于验证机器人在合作搜索和救援以确保重要设施和边界区域安全方面的应用。同时,也逐步开始关注强化学习和多智能体强化学习的研究。这些机器人就是具有学习能力的智能体。孩子们是如何学习玩捉人游戏的?人们是如何练习踢足球的?以及在追捕罪犯的过程中警察是如何协作的?应该采用什么样的策略?如何制定这些策略?当和一群新朋友玩足球时,如何能够快速评估每个人的能力,并在比赛中采用特殊策略呢?随着研究团队开始致力于深入研究多智能体机器学习和博弈理论,逐渐发现尽管已有很多相关论文发表,但并不集中也不够全面。虽然已有一些综述性文章\[5\],但均未能充分说明这些不同方法的具体细节。本书旨在向读者介绍一种特殊形式的机器学习。全书主要是关于多智能体机器学习,同时也包括一般学习算法的核心内容。学习算法的形式各不相同,然而往往都具有相似方法。在此,将着重比较这些方法的相同和不同之处。本书的主要内容是基于本人的研究工作,以及过去10年里所指导下的博士生、硕士生的研究工作。在此,特别感谢Sidney Givigi教授。Givigi教授为本书第6章中所介绍的主要思路和算法提供了坚实基础。另外,本书中还包含了Xiaosong(Eric)Lu博士的研究成果。其中,关于疆土守卫部分的内容主要来源于其博士论文。同时,还有一些研究生也为本书做出了贡献,他们是Badr Al Faiya、Mostafa Awheda、Pascal De Beck-Courcelle和Sameh Desouky。如果没有研究小组中学生们的辛勤工作,本书是不可能完成的。原 书 前 言   Howard MSchwartz于加拿大渥太华2013年9月

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网