阿尔法零对最优模型预测自适应控制的启示/信息技术和电气工程学科国际知名教材中译本--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

德梅萃·P.博塞克斯（Dimitri P.Bertsekas）教授是国际运筹优化与控制领域的著名学者，其系列经典教材被清华大学、麻省理工学院等国内外高校广泛使用。本书构建了近似动态规划和强化学习的新的理论框架，简洁但雄心勃勃。这一框架以离线训练和在线学习这两类算法为中心，彼此独立又通过牛顿法有机融合。当今新一代人工智能技术发展绚丽多彩，在看似纷繁复杂的数据与算法表象之下，其实蕴藏着简洁而美妙的规律。通过本书的学习，读者将能体会经典优化控制理论在分析和理解当代强化学习算法性能中的强大威力，更能领悟到以阿尔法零为代表的新一代算法浪潮为经典理论提供的新的发展机遇。本书适合作为普通高等学校信息科学技术领域研究生、本科生高年级教材，也可供本领域科研人员自学参考。

作者简介

贾庆山，清华大学长聘教授。主要研究信息物理融合能源系统的优化理论与方法。发表四十篇IEEE汇刊论文。获得2009年国家自然科学奖二等奖、2018年国家自然科学奖二等奖、2020年教育部自然科学奖二等奖，多次获得国际期刊、国际会议最佳论文奖。担任IEEE Internet of Things Activity Board委员、IEEE控制系统协会Board of Governors委员、IEEE控制系统协会北京分会主席、IEEE机器人与自动化协会智能建筑专业委员会副主席、IFAC智慧城市控制专业委员会主席。曾任IEEE控制系统协会离散事件系统专业委员会主席。担任中国自动化学会第十一届控制理论专业委员会委员兼副秘书长，中国自动化学会第一届工业控制系统信息安全专业委员会委员。

第1章阿尔法零、离线训练和在线学习 1.1 离线训练和策略迭代 1.2 在线学习与值空间近似——截断滚动 1.3 阿尔法零的经验 1.4 强化学习的一种新概念框架 1.5 注释与参考文献第2章确定性和随机的动态规划 2.1 无限时段上的最优控制 2.2 值空间近似 2.3 注释与参考文献第3章强化学习的抽象视角 3.1 贝尔曼算子 3.2 值空间近似和牛顿法 3.3 稳定域 3.4 策略迭代、滚动和牛顿法 3.5 在线对弈对于离线训练过程有多敏感？ 3.6 何不直接训练策略网络并在使用时摒弃在线对弈呢？ 3.7 多智能体问题和多智能体滚动 3.8 在线简化策略迭代 3.9 例外情形 3.10 注释与参考文献第4章线性二次型情形——例证 4.1 最优解 4.2 稳定线性策略的费用函数 4.3 值迭代 4.4 单步和多步前瞻——牛顿步的解释 4.5 灵敏度问题 4.6 滚动和策略迭代 4.7 截断滚动——前瞻长度问题 4.8 线性二次型问题中的例外行为 4.9 注释与参考文献第5章自适应和模型预测控制 5.1 具有未知参数的系统——鲁棒和PID控制 5.2 值空间近似、滚动和自适应控制 5.3 值空间近似、滚动和模型预测控制 5.4 末端费用近似——稳定性问题 5.5 注释与参考文献第6章有限时段确定性问题——离散优化 6.1 确定性离散空间有限时段问题 6.2 一般离散优化问题 6.3 值空间近似 6.4 离散优化的滚动算法 6.5 采用多步前瞻的滚动——截断滚动 6.6 约束形式的滚动算法 6.7 使用部分可观马尔可夫决策问题模型滚动的自适应控制 6.8 极小化极大控制的滚动 6.9 小阶段费用与长时段——连续时间滚动 6.10 结语附录A 不动点问题的牛顿法 A.1 可微不动点问题的牛顿法 A.2 无须贝尔曼算子可微性的牛顿法参考文献

阿尔法零对最优模型预测自适应控制的启示/信息技术和电气工程学科国际知名教材中译本

库存： {{selectedSku?.stock}} 库存充足

上架到店铺