您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
阿尔法零对最优模型预测自适应控制的启示
字数: 262000
装帧: 平装
出版社: 清华大学出版社
作者: (美)德梅萃·P.博塞克斯 著 贾庆山,李岩 译
商品条码: 9787302660361
版次: 1
开本: 16开
页数: 176
定价:
¥69
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
德梅萃·P.博塞克斯(Dimitri P.Bertsekas)教授是国际运筹优化与控制领域的著名学者,其系列经典教材被清华大学、麻省理工学院等国内外高校广泛使用。本书构建了近似动态规划和强化学习的新的理论框架,简洁但雄心勃勃。这一框架以离线训练和在线学习这两类算法为中心,彼此独立又通过牛顿法有机融合。当今新一代人工智能技术发展绚丽多彩,在看似纷繁复杂的数据与算法表象之下,其实蕴藏着简洁而美妙的规律。通过本书的学习,读者将能体会经典优化控制理论在分析和理解当代强化学习算法性能中的强大威力,更能领悟到以阿尔法零为代表的新一代算法浪潮为经典理论提供的新的发展机遇。本书适合作为普通高等学校信息科学技术领域研究生、本科生高年级教材,也可供本领域科研人员自学参考。
目录
第1章 阿尔法零、离线训练和在线学习 1
1.1 离线训练和策略迭代 3
1.2 在线学习与值空间近似——截断滚动 4
1.3 阿尔法零的经验 6
1.4 强化学习的一种新概念框架 8
1.5 注释与参考文献 9
第2章 确定性和随机的动态规划 13
2.1 无限时段上的最优控制 14
2.2 值空间近似 18
2.3 注释与参考文献 21
第3章 强化学习的抽象视角 22
3.1 贝尔曼算子 23
3.2 值空间近似和牛顿法 28
3.3 稳定域 32
3.4 策略迭代、滚动和牛顿法 36
3.5 在线对弈对于离线训练过程有多敏感? 41
3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢? 43
3.7 多智能体问题和多智能体滚动 44
3.8 在线简化策略迭代 47
3.9 例外情形 52
3.10 注释与参考文献 57
第4章 线性二次型情形——例证 59
4.1 最优解 60
4.2 稳定线性策略的费用函数 61
4.3 值迭代 63
4.4 单步和多步前瞻——牛顿步的解释 64
4.5 灵敏度问题 67
4.6 滚动和策略迭代 69
4.7 截断滚动——前瞻长度问题 71
4.8 线性二次型问题中的例外行为 73
4.9 注释与参考文献 74
第5章 自适应和模型预测控制 75
5.1 具有未知参数的系统——鲁棒和 PID 控制 76
5.2 值空间近似、滚动和自适应控制 78
5.3 值空间近似、滚动和模型预测控制 81
5.4 末端费用近似——稳定性问题 83
5.5 注释与参考文献 87
第6章 有限时段确定性问题——离散优化 88
6.1 确定性离散空间有限时段问题 89
6.2 一般离散优化问题 92
6.3 值空间近似 95
6.4 离散优化的滚动算法 98
6.5 采用多步前瞻的滚动——截断滚动 111
6.6 约束形式的滚动算法 114
6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 124
6.8 极小化极大控制的滚动 130
6.9 小阶段费用与长时段——连续时间滚动 136
6.10 结语 142
附录A 不动点问题的牛顿法 145
A.1 可微不动点问题的牛顿法 145
A.2 无须贝尔曼算子可微性的牛顿法 148
参考文献 152
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网