人工智能超入门丛书--强化学习：人工智能如何知错能改--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥21.56

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

“人工智能超入门丛书”致力于面向人工智能各技术方向零基础的读者，内容涉及数据素养、机器学习、视觉感知、情感分析、搜索算法、强化学习、知识图谱、专家系统等方向。本丛书体系完整、内容简洁、语言通俗，综合介绍了人工智能相关知识，并辅以程序代码解决问题，使得零基础的读者能够快速入门。《强化学习：人工智能如何知错能改》是“人工智能超入门丛书”中的分册，以科普的形式讲解了强化学习的核心知识，内容生动有趣，带领读者走进强化学习的世界。本书包含强化学习方向的基础知识，如动态规划、时序差分等，让读者在开始学习时对强化学习有初步的认识；之后，通过对马尔可夫决策过程及贝尔曼方程的解读，逐渐过渡到强化学习的关键内容；同时，本书也重点解析了策略迭代与价值迭代两种核心算法，也对蒙特卡洛方法、时序差分算法、深度强化学习及基于策略的强化学习算法进行了深度剖析。本书内容结构完整、逻辑清晰、层层递进，并配有相关实例与代码，让读者在阅读学习过程中能够加深理解。本书适合强化学习及人工智能方向的初学者阅读学习，也可供高等院校人工智能及计算机类专业的师生参考。

作者简介

龚超，工学博士，清华大学日本研究中心主任助理，中日创新中心主任研究员，深圳清华大学研究院下一代互联网研发中心核心成员，海口经济学院雅和人居工程学院客座教授。中国高科技产业化研究会理事、中国自动化学会普及工作委员会委员、中国人工智能学会中小学工作委员会委员、中国青少年宫协会特聘专家、未来基因（北京）人工智能研究院首席专家、教育部教育信息化教学应用实践共同体项目特聘专家，多家500强企业数字化转型领域高级顾问。研究方向为人工智能优化算法、人工智能在数字化转型中的应用等。著有15本人工智能相关图书，在国内外期刊上发表文章共计70余篇。王冀，工学博士，西北工业大学计算机学院助理教授，研究方向为关键数据提取及图像编码，在本领域优秀期刊、会议发表论文20余篇，参与起草行业及团体标准2项，出版专著4部。曾获PCSJ学会WBVC竞赛特别奖、图像信息媒体学会优秀发表奖。梁霄，中国人民大学附属中学教师，任信息学竞赛教练，本科毕业于清华大学电子工程系，博士毕业于清华大学计算机系。截至2024年6月，指导学生许庭强以世界第一的成绩获得2023国际信息学奥林匹克竞赛金牌，指导学生黄洛天以总分第一名获得2023年APIO国际金牌，指导6人次获得NOI金牌（全部为国家集训队）。此外还开设了多门人工智能相关课程，致力于探索计算机科学的中小学教育。贵宁，本科毕业于清华大学自动化系，目前在清华大学深圳研究生院智能机器人实验室攻读硕士学位。研究方向集中于鲁棒强化学习及其在机器人领域的应用。在硕士学习期间，专注于强化学习与大模型在机器人技术上的实际应用，积累了丰富的经验。

第1章　强化学习概述 001 1.1　什么是强化学习 002 1.1.1　初识强化学习 002 1.1.2　强化学习的关键要素 005 1.1.3　监督、无监督与强化学习 007 1.2　三条主线 009 1.2.1　试错 009 1.2.2　动态规划 011 1.2.3　时序差分 012 1.3　强化学习的方法与应用 014 1.3.1　强强联合之深度强化学习 014 1.3.2　强化学习的跨界赋能 017 1.3.3　强化学习的分类 021 第2章　马尔可夫与贝尔曼方程 024 2.1　“随机”那些事儿 025 2.1.1　概率的基本概念 025 2.1.2　网格迷宫的探索 031 2.1.3　探索的策略与奖励 034 2.1.4　探索的足迹 037 2.2　马尔可夫大家族 040 2.2.1　马尔可夫过程 040 2.2.2　马尔可夫奖励过程 043 2.2.3　马尔可夫决策过程 044 2.3　贝尔曼方程 046 2.3.1　价值函数与动作价值函数 046 2.3.2　贝尔曼方程 050 2.3.3　贝尔曼最优方程 052 第3章　动态规划 056 3.1　动态规划基础与环境 057 3.1.1　动态规划基础 057 3.1.2　环境：冰湖 059 3.2　策略迭代算法 063 3.2.1　原理 063 3.2.2　代码 067 3.3　价值迭代算法 072 3.3.1　原理 072 3.3.2　代码 074 第4章　蒙特卡洛 078 4.1　随机变量的数字特征 080 4.1.1　期望 080 4.1.2　方差 082 4.2　蒙特卡洛方法与应用 083 4.2.1　圆面积的估计 084 4.2.2　均值估计 087 4.3　蒙特卡洛与强化学习 091 4.3.1　原理 091 4.3.2　环境：21点 101 4.3.3　代码 102 第5章　时序差分 107 5.1　时序差分 108 5.1.1　时序差分基础 108 5.1.2　环境：悬崖漫步 116 5.2　Sarsa算法 118 5.2.1　原理 118 5.2.2　代码 120 5.3　Q-Learning算法 124 5.3.1　原理 124 5.3.2　代码 127 第6章　深度强化学习 134 6.1　DQN入门 135 6.1.1　DQN的基本概念 135 6.1.2　环境：车杆 139 6.2　BP神经网络+强化学习 141 6.2.1　原理 141 6.2.2　代码 145 6.3　卷积神经网络+强化学习 157 6.3.1　原理 157 6.3.2　代码 162 6.4　DQN的改进 167 第7章　策略学习 170 7.1　策略梯度算法 171 7.1.1　策略梯度原理 171 7.1.2　REINFORCE算法 173 7.1.3　代码 176 7.2　Actor-Critic算法 184 7.2.1　原理 184 7.2.2　环境：LunarLander 189 7.2.3　代码 190 7.3　其他基于策略的算法 197 附录 203 附录A　环境设置与行为探索 204 A.1　Gym库与环境设置 204 A.2　具有人类偏好的多智能体强化学习 206 附录B　博弈与策略 209 B.1　什么是博弈 209 B.2　混合策略博弈 212 B.3　序贯博弈 215 B.4　无限博弈与有限博弈 216 附录C　收益衡量 222 C.1　理性收益：期望价值 223 C.2　效用收益：期望效用 226 C.3　情感收益：前景理论 228

人工智能超入门丛书--强化学习：人工智能如何知错能改

库存： {{selectedSku?.stock}} 库存充足