您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
深度强化学习图解
字数: 534
出版社: 清华大学
作者: (美)米格尔·莫拉莱斯|责编:王军|译者:郭涛
商品条码: 9787302605461
版次: 1
开本: 16开
页数: 408
出版年份: 2022
印次: 1
定价:
¥139
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
我们在与环境交互的过 程中进行学习,经历的奖励 或惩罚将指导我们未来的行 为。深度强化学习将该过程 引入人工智能领域,通过分 析结果来寻找最有效的前进 方式。DRL智能体可提升营 销效果、预测股票涨跌,甚 至击败顶尖围棋高手和国际 象棋大师。 《深度强化学习图解》 呈现生动示例,指导你构建 深度学习体系。Python代码 包含详明、直观的注释,助 你深刻理解DRL技术。你将 学习算法的运行方式,并学 会用评估性反馈来开发自己 的DRL智能体。 本书主要内容包括: 强化学习入门; 行为与人类似的DRL智能 体; 在复杂情况下应用DRL。 本书适用于具有基础深 度学习经验的开发者。
作者简介
Miguel Morales在洛克希德·马丁(Lockheed Martin)公司从事强化学习工作,在佐治亚理工学院担任强化学习与决策课程的讲师。
目录
第1章 深度强化学习导论 1.1 深度强化学习概念 1.1.1 深度强化学习:人工智能的机器学习法 1.1.2 深度强化学习着重创建计算机程序 1.1.3 智能体解决智能问题 1.1.4 智能体通过试错提高性能 1.1.5 智能体从惯序性反馈中学习 1.1.6 智能体从评估性反馈中学习 1.1.7 智能体从抽样性反馈中学习 1.1.8 智能体使用强大的非线性函数逼近 1.2 深度强化学习的过去、现在与未来 1.2.1 人工智能和深度强化学习的发展简史 1.2.2 人工智能的寒冬 1.2.3 人工智能现状 1.2.4 深度强化学习进展 1.2.5 未来的机遇 1.3 深度强化学习的适用性 1.3.1 利弊分析 1.3.2 深度强化学习之利 1.3.3 深度强化学习之弊 1.4 设定明确的双向预期 1.4.1 本书的预期 1.4.2 本书的最佳使用方式 1.4.3 深度强化学习的开发环境 1.5 小结 第2章 强化学习数学基础 2.1 强化学习组成 2.1.1 问题、智能体和环境的示例 2.1.2 智能体:决策者 2.1.3 环境:其余一切 2.1.4 智能体与环境交互循环 2.2 MDP:环境的引擎 2.2.1 状态:环境的特定配置 2.2.2 动作:影响环境的机制 2.2.3 转换函数:智能体行为的后果 2.2.4 奖励信号:胡萝卜和棍棒 2.2.5 视界:时间改变最佳选择 2.2.6 折扣:未来是不确定的,别太看重它 2.2.7 MDP扩展 2.2.8 总体回顾 2.3 小结 第3章 平衡短期目标与长期目标 3.1 决策智能体的目标 3.1.1 策略:各状态动作指示 3.1.2 状态-值函数:有何期望 3.1.3 动作-值函数:如果这样做,有何期望 3.1.4 动作-优势函数:如果这样做,有何进步 3.1.5 最优性 3.2 规划最优动作顺序 3.2.1 策略评估:评级策略
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网