您好,欢迎来到聚文网。 登录 免费注册
线性代数与优化:机器学习视角

线性代数与优化:机器学习视角

  • 字数: 680
  • 出版社: 机械工业
  • 作者: [美] 查鲁·C. 阿加沃尔(Charu C. Aggarwal)
  • 商品条码: 9787111777052
  • 适读年龄: 12+
  • 版次: 1
  • 开本: 16开
  • 页数: 482
  • 出版年份: 2025
  • 印次: 1
定价:¥149 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书从机器学习视角,系统梳理线性代数与最优化理论,直击初学者“知识零散、课程脱节”的痛点。全书以“应用导向”贯穿始终,分两大模块构建知识网络: 1.线性代数及其应用:从矩阵运算本质出发,深入剖析奇异值分解(SVD)、核方法、图谱理论等工具,通过人脸识别、推荐系统等案例,展现线性代数在特征提取、降维、异常检测中的核心作用。 2.最优化理论及其应用:以最小二乘回归为支点,辐射梯度下降、牛顿法、约束优化等算法,揭示支持向量机、Logistic回归的数学原理,并延伸至神经网络训练中的计算图优化技术。 作者独创“概念即时应用”模式,每章配以“理解题”与“综合习题”,确保读者在真实问题中内化知识,实现从数学公式到算法代码的无缝衔接。
作者简介
查鲁·C. 阿加沃尔<br /> (Charu C. Aggarwal)<br /> 位于美国纽约州约克敦海茨的IBM T. J. Watson 研究中心的杰出研究员,于1996年获麻省理工学院博士学位。他发表了350多篇论文,拥有80多项专利,撰写或编著了18本图书(涵盖数据挖掘、机器学习、推荐系统和离群点分析等领域)。由于其专利的商业价值,IBM三次授予他“创新大师”称号。他曾获EDBT会议颁发的久经考验奖(2014)和IEEE ICDM研究贡献奖(2015)。他曾担任数据挖掘领域许多大型会议的联席程序主席或联席总主席,目前是ACM SIGKDD Explorations和ACM Transactions on Knowledge Discovery from Data的主编。他由于对知识发现和数据挖掘算法的贡献而当选了SIAM、ACM和IEEE的会士。
目录
目录<br />译者序<br />前言<br />致谢<br />第 1 章 线性代数与优化:导论 1<br />1.1 引言1<br />1.2 标量、向量与矩阵 2<br />1.2.1 标量与向量间的基本运算3<br />1.2.2 向量与矩阵间的基本运算7<br />1.2.3 特殊的矩阵类12<br />1.2.4 矩阵幂、多项式与逆 14<br />1.2.5 矩阵逆引理:求矩阵和的逆  17<br />1.2.6 Frobenius 范数、迹与能量 20<br />1.3 作为可分解算子的矩阵乘法 21<br />1.3.1 作为可分解行和列算子的矩阵乘法  22<br />1.3.2 作为可分解几何算子的矩阵乘法 26<br />1.4 机器学习中的基本问题  28<br />1.4.1 矩阵因子分解28<br />1.4.2 聚类 29<br />1.4.3 分类与回归建模29<br />1.4.4 异常值检测31<br />1.5 机器学习中的优化31<br />1.5.1 用于函数简化的泰勒展开32<br />1.5.2 机器学习中的优化示例 33<br />1.5.3 计算图中的优化问题 35<br />IX<br />1.6 总结 36<br />1.7 拓展阅读  36<br />1.8 习题 36<br />第 2 章 线性变换与线性系统  42<br />2.1 引言 42<br />2.2 矩阵乘法的几何表示 44<br />2.2.1 正交变换 45<br />2.2.2 Givens 旋转与 Householder 反射  47<br />2.2.3 缩放:一个非刚性变换 49<br />2.2.4 一般情况:正交变换与缩放变换的组合 50<br />2.3 向量空间与几何表示 51<br />2.3.1 基系统中的坐标56<br />2.3.2 基集之间的坐标变换 58<br />2.3.3 向量集的生成空间 59<br />2.3.4 机器学习示例:离散小波变换61<br />2.3.5 向量空间的子空间之间的关系62<br />2.4 矩阵行与列的线性代数  64<br />2.5 矩阵的行阶梯形式65<br />2.5.1 LU 分解 67<br />2.5.2 应用:建立一个基集 68<br />2.5.3 应用:矩阵求逆68<br />2.5.4 应用:求解线性方程组 68<br />2.6 矩阵秩的概念 71<br />2.7 生成正交基集 73<br />2.7.1 Gram-Schmidt 正交化与 QR 分解 73<br />2.7.2 QR 分解 75<br />2.7.3 离散余弦变换78<br />2.8 线性系统的优化视角 80<br />2.8.1 Moore-Penrose 伪逆 82<br />2.8.2 投影矩阵 83<br />2.9 病态矩阵与系统86<br />2.10 内积:几何视角 87<br />2.11 复向量空间88<br />2.12 总结91<br />2.13 拓展阅读 92<br />2.14 习题92<br />第 3 章 特征向量与可对角化矩阵 98<br />3.1 引言 98<br />3.2 行列式  99<br />3.3 可对角化变换与特征向量 104<br />3.3.1 复特征值 108<br />3.3.2 左特征向量与右特征向量 109<br />3.3.3 对角化的存在唯一性 110<br />3.3.4 三角化的存在唯一性 112<br />3.3.5 共享特征值的相似矩阵族 114<br />3.3.6 共享特征向量的可对角化矩阵族  115<br />3.3.7 对称矩阵 116<br />3.3.8 半正定矩阵 118<br />3.3.9 Cholesky 分解:对称 LU 分解 120<br />3.4 机器学习与优化应用 121<br />3.4.1 机器学习中的快速矩阵运算  121<br />3.4.2 机器学习中的可对角化矩阵示例  122<br />3.4.3 二次优化中的对称矩阵 124<br />3.4.4 对角化的应用:优化中的分离变量129<br />3.4.5 范数约束二次规划的特征向量  130<br />3.5 求特征向量的数值算法 132<br />3.5.1 基于 Schur 分解的 QR 方法133<br />3.5.2 求主特征向量的幂方法 133<br />3.6 总结136<br />3.7 拓展阅读 136<br />3.8 习题136<br />第 4 章 最优化基础:机器学习视角 141<br />4.1 引言141<br />4.2 优化基础 142<br />4.2.1 单变量优化问题  142<br />4.2.2 双变量优化问题  149<br />4.2.3 多变量优化问题  151<br />4.3 凸目标函数154<br />4.4 梯度下降的细节 158<br />4.4.1 用有限差分检验梯度的正确性  158<br />4.4.2 学习率衰减与盲驱动 159<br />4.4.3 线搜索 160<br />4.4.4 初始化 162<br />4.5 机器学习中优化问题的性质  162<br />4.5.1 经典目标函数与可加分离性  163<br />4.5.2 随机梯度下降法  163<br />4.5.3 机器学习中优化问题的特点  165<br />4.5.4 超参数调优 167<br />4.5.5 特征预处理的重要性 167<br />4.6 计算关于向量的导数 168<br />4.6.1 矩阵微积分符号  169<br />4.6.2 实用的矩阵微积分恒等式 170<br />4.6.3 向量求导的链式法则 173<br />4.7 线性回归:数值目标下的优化  175<br />4.7.1 Tikhonov 正则化 176<br />4.7.2 随机梯度下降法  177<br />4.7.3 偏移的使用 178<br />4.8 二元目标优化模型  179<br />4.8.1 最小二乘分类:二元目标回归  180<br />4.8.2 支持向量机 182<br />4.8.3 Logistic 回归  185<br />4.8.4 为什么线性回归是机器学习中的基础问题187<br />4.9 多类设定下的优化模型 188<br />4.9.1 Weston-Watkins 支持向量机189<br />4.9.2 多项式 Logistic 回归 191<br />4.10 坐标下降法 193<br />4.10.1 基于坐标下降法的线性回归195<br />4.10.2 块坐标下降法196<br />4.10.3 作为块坐标下降的 k 均值算法 196<br />4.11 总结  197<br />4.12 拓展阅读  197<br />4.13 习题  198<br />第 5 章 高等优化求解方法202<br />5.1 引言202<br />5.2 基于梯度优化的挑战 203<br />5.2.1 局部最优与平坦域  203<br />5.2.2 微分曲率 205<br />5.2.3 拓扑示例:悬崖与山谷 207<br />5.3 对下降调节一阶导数 208<br />5.3.1 基于动量的学习  209<br />5.3.2 AdaGrad 算法210<br />5.3.3 RMSProp 算法 212<br />5.3.4 Adam 算法 212<br />5.4 牛顿法213<br />5.4.1 牛顿法的基本形式  214<br />5.4.2 线搜索对非二次函数的重要性  216<br />5.4.3 示例:关于二次碗的牛顿法  217<br />5.4.4 示例:基于非二次函数的牛顿法  217<br />5.5 机器学习中的牛顿法 218<br />5.5.1 线性回归的牛顿法  218<br />5.5.2 支持向量机的牛顿法 220<br />5.5.3 Logistic 回归的牛顿法223<br />5.5.4 不同模型间的联系与统一框架  225<br />5.6 牛顿法:挑战与求解 226<br />5.6.1 奇异矩阵与不定的黑塞矩阵  226<br />5.6.2 鞍点问题 227<br />5.6.3 非二次函数的收敛问题与求解  228<br />5.7 牛顿法在计算上的有效变体  230<br />5.7.1 共轭梯度法 230<br />5.7.2 拟牛顿法与 BFGS  234<br />5.8 不可微优化函数 236<br />5.8.1 次梯度法 237<br />5.8.2 近端梯度法 241<br />5.8.3 组合优化中代理损失函数的设计  243<br />5.8.4 优化序列决策的动态规划 244<br />5.9 总结247<br />5.10 拓展阅读  247<br />5.11 习题  248<br />第 6 章 约束优化与对偶 250<br />6.1 引言250<br />6.2 投影梯度下降法 251<br />6.2.1 线性等式约束  252<br />6.2.2 线性不等式约束  257<br />6.2.3 序列二次规划  261<br />6.3 原始坐标下降法 262<br />6.3.1 凸集上凸优化的坐标下降法  262<br />6.3.2 机器学习中的应用:盒回归  264<br />6.4 拉格朗日松弛与对偶 265<br />6.4.1 Kuhn-Tucker 最优性条件 269<br />6.4.2 应用对偶方法的一般步骤 270<br />6.4.3 应用:支持向量机的对偶问题  271<br />6.4.4 支持向量机的对偶问题的优化算法273<br />6.4.5 无约束问题的拉格朗日松弛  276<br />6.5 基于惩罚的方法与原始对偶法  281<br />6.5.1 单一约束的惩罚方法 281<br />6.5.2 惩罚方法的一般形式 282<br />6.5.3 障碍法与内点法  283<br />6.6 范数约束优化问题  285<br />6.7 原始方法与对偶方法的比较  287<br />6.8 总结288<br />6.9 拓展阅读 288<br />6.10 习题  288<br />第 7 章 奇异值分解 292<br />7.1 引言292<br />7.2 奇异值分解:线性代数视角  293<br />7.2.1 方阵的奇异值分解  293<br />7.2.2 通过填充将方阵的 SVD 推广到矩形矩阵的 SVD 297<br />7.2.3 矩形矩阵奇异值分解的几种定义  299<br />7.2.4 截断奇异值分解  301<br />7.2.5 奇异值分解的两种解释 307<br />7.2.6 奇异值分解唯一吗  309<br />7.2.7 二元分解与三元分解 310<br />7.3 奇异值分解:优化视角 311<br />7.3.1 基于基正交的最大化形式 312<br />7.3.2 基于残差的最小化形式 313<br />7.3.3 矩阵分解方法的推广 314<br />7.3.4 主成分分析 314<br />7.4 奇异值分解的应用  317<br />7.4.1 降维  317<br />7.4.2 噪声消除 318<br />7.4.3 求解线性代数中的四个基本子空间319<br />7.4.4 Moore-Penrose 伪逆 319<br />7.4.5 求解线性方程与线性回归 320<br />7.4.6 机器学习中的特征预处理与白化  321<br />7.4.7 异常值检测 322<br />7.4.8 特征工程 323<br />7.5 奇异值分解的数值算法 324<br />7.6 总结326<br />7.7 拓展阅读 326<br />7.8 习题326<br />第 8 章 矩阵分解 331<br />8.1 引言331<br />8.2 基于优化的矩阵分解 333<br />8.3 无约束矩阵分解 334<br />8.3.1 完全指定矩阵的梯度下降 335<br />8.3.2 在推荐系统中的应用 338<br />8.4 非负矩阵分解 342<br />8.4.1 基于 Frobenius 范数的优化问题  342<br />8.4.2 用对偶方法求解  343<br />8.4.3 非负矩阵分解的可解释性 345<br />8.4.4 非负矩阵分解示例  346<br />8.4.5 I-散度目标函数348<br />8.5 加权矩阵分解 349<br />8.5.1 非负稀疏矩阵的实际应用 350<br />8.5.2 随机梯度下降法  351<br />8.5.3 应用:基于隐式反馈数据的推荐系统352<br />8.5.4 应用:邻接矩阵中的链路预测  353<br />8.5.5 应用:GloVe 单词-单词文本嵌入 353<br />8.6 非线性矩阵分解 354<br />8.6.1 Logistic 矩阵分解  354<br />XVI<br />8.6.2 最大边缘矩阵分解  357<br />8.7 广义低秩模型 358<br />8.7.1 处理分类元素  360<br />8.7.2 处理序数元素  360<br />8.8 共享矩阵分解 362<br />8.8.1 共享因子分解的梯度下降 363<br />8.8.2 如何在任意场景中建立共享模型  363<br />8.9 因子分解机364<br />8.10 总结  368<br />8.11 拓展阅读  368<br />8.12 习题  369<br />第 9 章 线性代数中的相似性 373<br />9.1 引言373<br />9.2 数据矩阵与相似矩阵的等价性  373<br />9.2.1 数据矩阵与相似矩阵的相互转换  374<br />9.2.2 何时从相似矩阵中恢复数据  375<br />9.2.3 何种类型的相似矩阵是“有效的”376<br />9.2.4 作为优化模型的对称矩阵分解  377<br />9.2.5 核方法:机器学习视角 377<br />9.3 从相似矩阵中有效恢复数据  378<br />9.3.1 Nystr.m 抽样379<br />9.3.2 基于随机梯度下降的矩阵分解  380<br />9.3.3 非对称相似分解  382<br />9.4 相似矩阵的线性代数运算 383<br />9.4.1 相似矩阵的能量与单位球规范化  383<br />9.4.2 均值与方差的范数  384<br />9.4.3 相似矩阵的中心化  385<br />9.4.4 相似矩阵与距离矩阵的相互转换  385<br />9.5 基于相似矩阵的机器学习 388<br />9.5.1 基于相似矩阵的特征工程 389<br />9.5.2 相似矩阵的直接用途 391<br />9.6 线性代数中的表示定理 393<br />9.7 相似矩阵与线性可分离性 397<br />9.8 总结401<br />9.9 拓展阅读 401<br />9.10 习题  401<br />第 10 章 图中的线性代数 405<br />10.1 引言  405<br />10.2 图论基础与邻接矩阵  405<br />10.3 邻接矩阵的幂410<br />10.4 Perron-Frobenius 定理 413<br />10.5 图矩阵的右特征向量  416<br />10.5.1 谱聚类的核视角 417<br />10.5.2 谱聚类的 Laplace 视角419<br />10.5.3 谱聚类的矩阵分解视角423<br />10.5.4 哪种谱聚类视角最有用424<br />10.6 图矩阵的左特征向量  425<br />10.6.1 作为转移矩阵的左特征向量的 PageRank  426<br />10.62 声望与中心化的相关度量427<br />10.6.3 左特征向量在链接预测中的应用 428<br />10.7 可约矩阵的特征向量  429<br />10.7.1 无向图 429<br />10.7.2 有向图 430<br />10.8 在机器学习中的应用  432<br />10.8.1 应用于顶点分类 432<br />10.8.2 应用于多维数据 435<br />10.9 总结  436<br />10.10 拓展阅读436<br />10.11 习题436<br />XVIII<br />第 11 章 计算图中的优化 440<br />11.1 引言  440<br />11.2 计算图的基础知识 441<br />11.3 有向无环图中的优化  446<br />11.3.1 计算图中的挑战 446<br />11.3.2 梯度计算的一般框架 448<br />11.3.3 暴力计算节点关于节点的导数 448<br />11.3.4 计算节点关于节点导数的动态规划方法452<br />11.3.5 把节点-节点导数转换为损失-权重导数 457<br />11.3.6 基于向量变量的计算图459<br />11.4 应用:神经网络中的反向传播461<br />11.4.1 常见激活函数的导数 463<br />11.4.2 基于向量的反向传播 464<br />11.4.3 基于向量的反向传播示例466<br />11.5 计算图的一般视角 468<br />11.6 总结  471<br />11.7 拓展阅读  471<br />11.8 习题  471<br />参考文献476<br /><br />

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网