增强学习与近似动态规划--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

本书对增强学习与近似动态规划的理论、算法及应用进行了深入研究和论述。主要内容包括：求解Markov链学习预测问题的时域差值学习算法和理论，求解连续空间Markov决策问题的梯度增强学习算法以及进化-梯度混合增强学习算法，基于核的近似动态规划算法，增强学习在移动机器人导航与控制中的应用等。本书是作者在多个国家自然科学基金项目资助下取得的研究成果的总结，意在推动增强学习与近似动态规划理论与应用的发展，对于智能科学的前沿研究和智能学习系统的应用具有重要的科学意义。本书可作为高等院校与科研院所中从事人工智能与智能信息处理、机器人与智能控制、智能决策支持系统等专业领域的研究和教学用书，也可作为自动化、计算机与管理学领域其他相关专业师生及科研人员的参考书。

《智能科学技术著作丛书》序
前言
第1章绪论
1．1引言
1．2增强学习与近似动态规划的研究概况
1．2．1增强学习研究的相关学科背景
1．2．2增强学习算法的研究进展
1．2．3增强学习的泛化方法与近似动态规划
1．2．4增强学习相关理论研究与多Agent增强学习
1．2．5增强学习应用的研究进展
1．3移动机器人导航控制方法的研究现状和发展趋势
1．3．1移动机器人体系结构的研究进展
1．3．2移动机器人反应式导航方法的研究概况
1．3．3移动机器人路径跟踪控制的研究概况
1．4全书的组织结构
参考文献
第2章线性时域差值学习理论与算法
2．1Markov链与多步学习预测问题
2．1．1Markov链的基础理论
2．1．2基于Markov链的多步学习预测问题
2．2TD（λ）学习算法
2．2．1表格型TD（λ）学习算法
2．2．2基于值函数逼近的TD（λ）学习算法
2．3多步递推最小二乘TD学习算法及其收敛性理论
2．3．1多步递推最小二乘TD（RLS-TD（λ）》学习算法
2．3．2RLS-TD（λ）学习算法的一致收敛性分析
2．4多步学习预测的仿真研究
2．4．1HopWorld问题学习预测仿真
2．4．2连续状态随机行走问题的学习预测仿真
2．5小结
参考文献
第3章基于核的时域差值学习算法
3．1核方法与基于核的学习机器
3．1．1核函数的概念与性质
3．1．2再生核Hilbert空间与核函数方法
3．2核最小二乘时域差值学习算法
3．2．1线性TD（λ）学习算法
3．2．2KLS-TD（λ）学习算法
3．2．3学习预测实验与比较
3．3小结
参考文献
第4章求解Markov决策问题的梯度增强学习算法
4．1Markov决策过程与表格型增强学习算法
4．1．1Markov决策过程及其很优值函数
4．1．2表格型增强学习算法及其收敛性理论
4．2基于改进CMAC的直接梯度增强学习算法
4．2．1CMAC的结构
4．2．2基于CMAC的直接梯度增强学习算法
4．2．3两种改进的CMAC编码结构及其应用实例
4．3基于值函数逼近的残差梯度增强学习算法
4．3．1多层前馈神经网络函数逼近器与已有的梯度增强学习算法
4．3．2非平稳策略残差梯度（RGNP）增强学习算法
4．3．3RGNP学习算法的收敛性和近似很优策略性能的理论分析
4．3．4Mountain-Car问题的仿真研究
4．3．5Acrobot学习控制的仿真研究
4．4求解连续行为空间Markov决策问题的快速AHC学习算法
4．4．1AHC学习算法与Actor-Critic学习控制结构
4．4．2Fast-AHC学习算法
4．4．3连续控制量条件下的倒立摆学习控制仿真研究
4．4．4连续控制量条件下Acrobot系统的学习控制
4．5小结
参考文献
第5章求解Markov决策问题的进化-梯度混合增强学习算法
5．1进化计算的基本原理和方法
5．1．1进化计算的基本原理和算法框架
5．1．2进化算法的基本要素
……
第6章基于核的近似动态规划算法与理论
第7章基于增强学习的移动机器人反应式导航方法
第8章RL与ADP在移动机器人运动控制中的应用
第9章总结与展望

增强学习与近似动态规划

库存： {{selectedSku?.stock}} 库存充足

上架到店铺