机器学习公式详解第2版--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

内容简介

周志华老师的《机器学习》（俗称“西瓜书”）是机器学习领域的经典入门教材之一。本书是《机器学习公式详解》（俗称“南瓜书”）的第2 版。相较于第1 版，本书对“西瓜书”中除了公式以外的重、难点内容加以解析，以过来人视角给出学习建议，旨在对比较难理解的公式和重点内容扩充具体的例子说明，以及对跳步过大的公式补充具体的推导细节。全书共16 章，与“西瓜书”章节、公式对应，每个公式的推导和解释都以本科数学基础的视角进行讲解，希望能够帮助读者快速掌握各个机器学习算法背后的数学原理。本书思路清晰，视角独特，结构合理，可作为高等院校计算机及相关专业的本科生或研究生教材，也可供对机器学习感兴趣的研究人员和工程技术人员阅读参考

作者简介

谢文睿北京工业大学硕士，Datawhale开源项目负责人，百度算法工程师，研究方向为机器学习与自然语言处理。秦州康奈尔大学计算机硕士，Datawhale成员，阿里巴巴算法专家，研究方向为图计算与自然语言处理，在NeurIPS、AAAI、CIKM等会议上录用多篇学术论文并获得CIKM 2019最佳应用论文奖。贾彬彬工学博士，兰州理工大学讲师，研究方向为机器学习与数据挖掘，在TKDE、TNNLS、PRJ、ICML、AAAI等期刊和会议上共发表学术论文十余篇，并担任ICML、NeurIPS、ICLR、AAAI、IJCAI 等会议的程序委员会委员（PC Member）。

序（王斌小米AI 实验室主任、NLP 首席科学家）前言主要符号表资源与支持第 1 章绪论 1 1.1 引言 1 1.2 基本术语 1 1.3 假设空间 5 1.4 归纳偏好 5 1.4.1 式(1.1) 和式(1.2) 的解释 6 第 2 章模型评估与选择 8 2.1 经验误差与过拟合 8 2.2 评估方法 9 2.2.1 算法参数（超参数）与模型参数 10 2.2.2 验证集 10 2.3 性能度量 11 2.3.1 式(2.2) ～式(2.7) 的解释 11 2.3.2 式(2.8) 和式(2.9) 的解释 11 2.3.3 图2.3 的解释 11 2.3.4 式(2.10) 的推导 11 2.3.5 式(2.11) 的解释 12 2.3.6 式(2.12) ～式(2.17) 的解释 13 2.3.7 式(2.18) 和式(2.19) 的解释 13 2.3.8 式(2.20) 的推导 14 2.3.9 式(2.21) 和式(2.22) 的推导 16 2.3.10 式(2.23) 的解释 18 2.3.11 式(2.24) 的解释 19 2.3.12 式(2.25) 的解释 20 2.4 比较检验 22 2.4.1 式(2.26) 的解释 22 2.4.2 式(2.27) 的推导 23 2.5 偏差与方差 26 2.5.1 式(2.37) ～式(2.42) 的推导 26 参考文献 29 第3 章线性模型 30 3.1 基本形式 30 3.2 线性回归 30 3.2.1 属性数值化 30 3.2.2 式(3.4) 的解释 31 3.2.3 式(3.5) 的推导 32 3.2.4 式(3.6) 的推导 32 3.2.5 式(3.7) 的推导 33 3.2.6 式(3.9) 的推导 35 3.2.7 式(3.10) 的推导 36 3.2.8 式(3.11) 的推导 36 3.3 对率回归 39 3.3.1 式(3.27) 的推导 39 3.3.2 梯度下降法 41 3.3.3 牛顿法 42 3.3.4 式(3.29) 的解释 44 3.3.5 式(3.30) 的推导 44 3.3.6 式(3.31) 的推导 45 3.4 线性判别分析 46 3.4.1 式(3.32) 的推导 46 3.4.2 式(3.37) ～式(3.39) 的推导 47 3.4.3 式(3.43) 的推导 48 3.4.4 式(3.44) 的推导 48 3.4.5 式(3.45) 的推导 49 3.5 多分类学习 52 3.5.1 图3.5 的解释 52 3.6 类别不平衡问题 52 参考文献 52 第4 章决策树 53 4.1 基本流程 53 4.2 划分选择 54 4.2.1 式(4.1) 的解释 54 4.2.2 式(4.2) 的解释 58 4.2.3 式(4.4) 的解释 58 4.2.4 式(4.5) 的推导 59 4.2.5 式(4.6) 的解释 59 4.3 剪枝处理 62 4.4 连续值与缺失值 63 4.4.1 式(4.7) 的解释 63 4.4.2 式(4.8) 的解释 64 4.4.3 式(4.12) 的解释 64 4.5 多变量决策树 64 4.5.1 图4.10 的解释 65 4.5.2 图4.11 的解释 65 参考文献 66 第5 章神经网络 67 5.1 神经元模型 67 5.2 感知机与多层网络 67 5.2.1 式(5.1) 和式(5.2) 的推导 67 5.2.2 图5.5 的解释 70 5.3 误差逆传播算法 70 5.3.1 式(5.10) 的推导 70 5.3.2 式(5.12) 的推导 70 5.3.3 式(5.13) 的推导 71 5.3.4 式(5.14) 的推导 72 5.3.5 式(5.15) 的推导 73 5.4 全局最小与局部极小 73 5.5 其他常见神经网络 73 5.5.1 式(5.18) 的解释 73 5.5.2 式(5.20) 的解释 73 5.5.3 式(5.22) 的解释 74 5.5.4 式(5.23) 的解释 74 5.6 深度学习 74 5.6.1 什么是深度学习 75 5.6.2 深度学习的起源 75 5.6.3 怎么理解特征学习 75 参考文献 75 第6 章支持向量机 77 6.1 间隔与支持向量 77 6.1.1 图6.1 的解释 77 6.1.2 式(6.1) 的解释 77 6.1.3 式(6.2) 的推导 78 6.1.4 式(6.3) 的推导 78 6.1.5 式(6.4) 的推导 80 6.1.6 式(6.5) 的解释 80 6.2 对偶问题 80 6.2.1 凸优化问题 80 6.2.2 KKT 条件 80 6.2.3 拉格朗日对偶函数 81 6.2.4 拉格朗日对偶问题 82 6.2.5 式(6.9) 和式(6.10) 的推导 85 6.2.6 式(6.11) 的推导 85 6.2.7 式(6.13) 的解释 86 6.3 核函数 87 6.3.1 式(6.22) 的解释 87 6.4 软间隔与正则化 87 6.4.1 式(6.35) 的推导 87 6.4.2 式(6.37) 和式(6.38) 的推导 87 6.4.3 式(6.39) 的推导 87 6.4.4 式(6.40) 的推导 88 6.4.5 对率回归与支持向量机的关系 88 6.4.6 式(6.41) 的解释 89 6.5 支持向量回归 89 6.5.1 式(6.43) 的解释 89 6.5.2 式(6.45) 的推导 90 6.5.3 式(6.52) 的推导 91 6.6 核方法 92 6.6.1 式(6.57) 和式(6.58) 的解释 92 6.6.2 式(6.65) 的推导 92 6.6.3 式(6.66) 和式(6.67) 的解释 93 6.6.4 式(6.70) 的推导 94 6.6.5 核对率回归 98 参考文献 99 第7 章贝叶斯分类器 100 7.1 贝叶斯决策论 100 7.1.1 式(7.5) 的推导 100 7.1.2 式(7.6) 的推导 100 7.1.3 判别式模型与生成式模型 100 7.2 极大似然估计 101 7.2.1 式(7.12) 和式(7.13) 的推导 101 7.3 朴素贝叶斯分类器 104 7.3.1 式(7.16) 和式(7.17) 的解释 104 7.3.2 式(7.18) 的解释 104 7.3.3 贝叶斯估计 105 7.3.4 Categorical 分布 105 7.3.5 Dirichlet 分布 106 7.3.6 式(7.19) 和式(7.20) 的推导 106 7.4 半朴素贝叶斯分类器 110 7.4.1 式(7.21) 的解释 110 7.4.2 式(7.22) 的解释 111 7.4.3 式(7.23) 的推导 111 7.4.4 式(7.24) 和式(7.25) 的推导 112 7.5 贝叶斯网 112 7.5.1 式(7.27) 的解释 112 7.6 EM 算法 113 7.6.1 Jensen 不等式 113 7.6.2 EM 算法的推导 113 参考文献 121 第8 章集成学习 122 8.1 个体与集成 123 8.1.1 式(8.1) 的解释 123 8.1.2 式(8.2) 的解释 123 8.1.3 式(8.3) 的推导 123 8.2 Boosting 124 8.2.1 式(8.4) 的解释 125 8.2.2 式(8.5) 的解释 125 8.2.3 式(8.6) 的推导 126 8.2.4 式(8.7) 的推导 126 8.2.5 式(8.8) 的推导 127 8.2.6 式(8.9) 的推导 127 8.2.7 式(8.10) 的解释 128 8.2.8 式(8.11) 的推导 128 8.2.9 式(8.12) 的解释 129 8.2.10 式(8.13) 的推导 129 8.2.11 式(8.14) 的推导 130 8.2.12 式(8.16) 的推导 131 8.2.13 式(8.17) 的推导 131 8.2.14 式(8.18) 的推导 132 8.2.15 式(8.19) 的推导 132 8.2.16 AdaBoost 的个人推导 133 8.2.17 进一步理解权重更新公式 137 8.2.18 能够接受带权样本的基学习算法 139 8.3 Bagging 与随机森林 140 8.3.1 式(8.20) 的解释 140 8.3.2 式(8.21) 的推导 140 8.3.3 随机森林的解释 141 8.4 结合策略 141 8.4.1 式(8.22) 的解释 141 8.4.2 式(8.23) 的解释 141 8.4.3 硬投票和软投票的解释 141 8.4.4 式(8.24) 的解释 142 8.4.5 式(8.25) 的解释 142 8.4.6 式(8.26) 的解释 142 8.4.7 元学习器的解释 142 8.4.8 Stacking 算法的解释 143 8.5 多样性 143 8.5.1 式(8.27) 的解释 143 8.5.2 式(8.28) 的解释 143 8.5.3 式(8.29) 的解释 143 8.5.4 式(8.30) 的解释 144 8.5.5 式(8.31) 的推导 144 8.5.6 式(8.32) 的解释 144 8.5.7 式(8.33) 的解释 145 8.5.8 式(8.34) 的解释 145 8.5.9 式(8.35) 的解释 145 8.5.10 式(8.36) 的解释 145 8.5.11 式(8.40) 的解释 145 8.5.12 式(8.41) 的解释 146 8.5.13 式(8.42) 的解释 146 8.5.14 多样性增强的解释 146 8.6 Gradient Boosting、GBDT、XGBoost的联系与区别 147 8.6.1 从梯度下降的角度解释AdaBoost 147 8.6.2 梯度提升 149 8.6.3 梯度提升树(GBDT) 151 8.6.4 XGBoost 152 参考文献 152 第9 章聚类 153 9.1 聚类任务 153 9.2 性能度量 153 9.2.1 式(9.5) 的解释 153 9.2.2 式(9.6) 的解释 155 9.2.3 式(9.7) 的解释 155 9.2.4 式(9.8) 的解释 156 9.2.5 式(9.12) 的解释 156 9.3 距离计算 156 9.3.1 式(9.21) 的解释 156 9.4 原型聚类 157 9.4.1 式(9.28) 的解释 157 9.4.2 式(9.29) 的解释 157 9.4.3 式(9.30) 的解释 158 9.4.4 式(9.31) 的解释 159 9.4.5 式(9.32) 的解释 159 9.4.6 式(9.33) 的推导 160 9.4.7 式(9.34) 的推导 161 9.4.8 式(9.35) 的推导 162 9.4.9 式(9.36) 的解释 164 9.4.10 式(9.37) 的推导 164 9.4.11 式(9.38) 的推导 165 9.4.12 图9.6 的解释 166 9.5 密度聚类 166 9.5.1 密度直达、密度可达与密度相连 167 9.5.2 图9.9 的解释 168 9.6 层次聚类 168 第 10 章降维与度量学习 170 10.1 预备知识 170 10.1.1 符号约定 170 10.1.2 矩阵与单位阵、向量的乘法 170 10.2 矩阵的F 范数与迹 171 10.3 k 近邻学习 173 10.3.1 式(10.1) 的解释 173 10.3.2 式(10.2) 的推导 174 10.4 低维嵌入 175 10.4.1 图10.2 的解释 175 10.4.2 式(10.3) 的推导 175 10.4.3 式(10.4) 的推导 176 10.4.4 式(10.5) 的推导 177 10.4.5 式(10.6) 的推导 177 10.4.6 式(10.10) 的推导 178 10.4.7 式(10.11) 的解释 179 10.4.8 图10.3 关于MDS 算法的解释 179 10.5 主成分分析 180 10.5.1 式(10.14) 的推导 180 10.5.2 式(10.16) 的解释 184 10.5.3 式(10.17) 的推导 186 10.5.4 根据式(10.17) 求解式(10.16) 188 10.6 核化线性降维 188 10.6.1 式(10.19) 的解释 189 10.6.2 式(10.20) 的解释 189 10.6.3 式(10.21) 的解释 190 10.6.4 式(10.22) 的解释 190 10.6.5 式(10.24) 的推导 190 10.6.6 式(10.25) 的解释 191 10.7 流形学习 191 10.7.1 等度量映射(Isomap) 的解释 191 10.7.2 式(10.28) 的推导 192 10.7.3 式(10.31) 的推导 194 10.8 度量学习 196 10.8.1 式(10.34) 的解释 196 10.8.2 式(10.35) 的解释 197 10.8.3 式(10.36) 的解释 197 10.8.4 式(10.37) 的解释 198 10.8.5 式(10.38) 的解释 198 10.8.6 式(10.39) 的解释 198 参考文献 199 第 11 章特征选择与稀疏学习 200 11.1 子集搜索与评价 200 11.1.1 式(11.1) 的解释 200 11.1.2 式(11.2) 的解释 200 11.2 过滤式选择 201 11.3 包裹式选择 201 11.4 嵌入式选择与L1 正则化 202 11.4.1 式(11.5) 的解释 202 11.4.2 式(11.6) 的解释 202 11.4.3 式(11.7) 的解释 203 11.4.4 式(11.8) 的解释 203 11.4.5 式(11.9) 的解释 203 11.4.6 式(11.10) 的推导 203 11.4.7 式(11.11) 的解释 205 11.4.8 式(11.12) 的解释 205 11.4.9 式(11.13) 的解释 205 11.4.10 式(11.14) 的推导 205 11.5 稀疏表示与字典学习 208 11.5.1 式(11.15) 的解释 208 11.5.2 式(11.16) 的解释 208 11.5.3 式(11.17) 的推导 208 11.5.4 式(11.18) 的推导 208 11.6 压缩感知 213 11.6.1 式(11.21) 的解释 213 11.6.2 式(11.25) 的解释 213 参考文献 214 第 12 章计算学习理论 215 12.1 基础知识 215 12.1.1 式(12.1) 的解释 216 12.1.2 式(12.2) 的解释 216 12.1.3 式(12.3) 的解释 216 12.1.4 式(12.4) 的解释 216 12.1.5 式(12.5) 和式(12.6) 的解释 216 12.1.6 式(12.7) 的解释 217 12.2 PAC 学习 217 12.2.1 式(12.9) 的解释 218 12.3 有限假设空间 218 12.3.1 式(12.10) 的解释 219 12.3.2 式(12.11) 的解释 219 12.3.3 式(12.12) 的推导 219 12.3.4 式(12.13) 的解释 220 12.3.5 式(12.14) 的推导 220 12.3.6 引理12.1 的解释 221 12.3.7 式(12.18) 的推导 221 12.3.8 式(12.19) 的推导 221 12.3.9 式(12.20) 的解释 222 12.4 VC 维 223 12.4.1 式(12.21) 的解释 223 12.4.2 式(12.22) 的解释 223 12.4.3 式(12.23) 的解释 224 12.4.4 引理12.2 的解释 224 12.4.5 式(12.28) 的解释 226 12.4.6 式(12.29) 的解释 227 12.4.7 式(12.30) 的解释 227 12.4.8 定理12.4 的解释 228 12.5 Rademacher 复杂度 229 12.5.1 式(12.36) 的解释 229 12.5.2 式(12.37) 的解释 229 12.5.3 式(12.38) 的解释 230 12.5.4 式(12.39) 的解释 230 12.5.5 式(12.40) 的解释 231 12.5.6 式(12.41) 的解释 231 12.5.7 定理12.5 的解释 231 12.6 定理12.6 的解释 233 12.6.1 式(12.52) 的证明 235 12.6.2 式(12.53) 的推导 235 12.7 稳定性 235 12.7.1 泛化损失/经验损失/留一损失的解释 236 12.7.2 式(12.57) 的解释 236 12.7.3 定理12.8 的解释 236 12.7.4 式(12.60) 的推导 237 12.7.5 经验损失最小化 237 12.7.6 定理12.9 的证明的解释 237 参考文献 238 第 13 章半监督学习 240 13.1 未标记样本 240 13.2 生成式方法 240 13.2.1 式(13.1) 的解释 241 13.2.2 式(13.2) 的推导 241 13.2.3 式(13.3) 的推导 242 13.2.4 式(13.4) 的推导 242 13.2.5 式(13.5) 的解释 242 13.2.6 式(13.6) 的解释 243 13.2.7 式(13.7) 的解释 244 13.2.8 式(13.8) 的解释 246 13.3 半监督SVM 248 13.3.1 图13.3 的解释 248 13.3.2 式(13.9) 的解释 248 13.3.3 图13.4 的解释 248 13.3.4 式(13.10) 的解释 250 13.4 图半监督学习 250 13.4.1 式(13.12) 的推导 251 13.4.2 式(13.13) 的推导 252 13.4.3 式(13.14) 的推导 253 13.4.4 式(13.15) 的推导 253 13.4.5 式(13.16) 的解释 254 13.4.6 式(13.17) 的推导 254 13.4.7 式(13.18) 的解释 254 13.4.8 式(13.20) 的解释 254 13.4.9 式(13.21) 的推导 255 13.5 基于分歧的方法 259 13.5.1 图13.6 的解释 259 13.6 半监督聚类 260 13.6.1 图13.7 的解释 260 13.6.2 图13.9 的解释 260 参考文献 260 第 14 章概率图模型 261 14.1 隐马尔可夫模型 261 14.1.1 生成式模型和判别式模型 261 14.1.2 式(14.1) 的推导 262 14.1.3 隐马尔可夫模型的三组参数 263 14.2 马尔可夫随机场 263 14.2.1 式(14.2) 和式(14.3) 的解释 263 14.2.2 式(14.4) ～式(14.7) 的推导 264 14.2.3 马尔可夫毯 264 14.2.4 势函数 265 14.2.5 式(14.8) 的解释 265 14.2.6 式(14.9) 的解释 265 14.3 条件随机场 265 14.3.1 式(14.10) 的解释 265 14.3.2 式(14.11) 的解释 266 14.4 学习与推断 266 14.4.1 式(14.14) 的推导 266 14.4.2 式(14.15) 和式(14.16) 的推导 266 14.4.3 式(14.17) 的解释 267 14.4.4 式(14.18) 的推导 267 14.4.5 式(14.19) 的解释 267 14.4.6 式(14.20) 的解释 268 14.4.7 式(14.22) 的推导 268 14.4.8 图14.8 的解释 269 14.5 近似推断 269 14.5.1 式(14.21) ～式(14.25) 的解释 269 14.5.2 式(14.26) 的解释 270 14.5.3 式(14.27) 的解释 270 14.5.4 式(14.28) 的推导 270 14.5.5 吉布斯采样与MH 算法 271 14.5.6 式(14.29) 的解释 272 14.5.7 式(14.30) 的解释 272 14.5.8 式(14.31) 的解释 273 14.5.9 式(14.32) ～式(14.34) 的推导 273 14.5.10 式(14.35) 的解释 274 14.5.11 式(14.36) 的推导 274 14.5.12 式(14.37) 和式(14.38) 的解释 276 14.5.13 式(14.39) 的解释 277 14.5.14 式(14.40) 的解释 277 14.6 话题模型 278 14.6.1 式(14.41) 的解释 278 14.6.2 式(14.42) 的解释 279 14.6.3 式(14.43) 的解释 279 14.6.4 式(14.44) 的解释 279 参考文献 279 第 15 章规则学习 280 15.1 剪枝优化 280 15.1.1 式(15.2) 和式(15.3) 的解释 280 15.2 归纳逻辑程序设计 281 15.2.1 式(15.6) 的解释 281 15.2.2 式(15.7) 的推导 281 15.2.3 式(15.9) 的推导 281 15.2.4 式(15.10) 的解释 281 15.2.5 式(15.11) 的解释 281 15.2.6 式(15.12) 的解释 282 15.2.7 式(15.13) 的解释 282 15.2.8 式(15.16) 的推导 282 第 16 章强化学习 283 16.1 任务与奖赏 283 16.2 K-摇臂赌博机 283 16.2.1 式(16.2) 和式(16.3) 的推导 283 16.2.2 式(16.4) 的解释 283 16.3 有模型学习 284 16.3.1 式(16.7) 的解释 284 16.3.2 式(16.8) 的推导 284 16.3.3 式(16.10) 的推导 285 16.3.4 式(16.14) 的解释 285 16.3.5 式(16.15) 的解释 285 16.3.6 式(16.16) 的推导 285 16.4 免模型学习 286 16.4.1 式(16.20) 的解释 286 16.4.2 式(16.23) 的解释 286 16.4.3 式(16.31) 的推导 286 16.5 值函数近似 287 16.5.1 式(16.33) 的解释 287 16.5.2 式(16.34) 的推导 287 参考文献 287

机器学习公式详解第2版

库存： {{selectedSku?.stock}} 库存充足

上架到店铺