您好,欢迎来到聚文网。 登录 免费注册
机器学习 算法背后的理论与优化

机器学习 算法背后的理论与优化

  • 字数: 277000
  • 装帧: 平装
  • 出版社: 清华大学出版社
  • 作者: 史春奇,卜晶祎,施智平
  • 出版日期: 2019-07-01
  • 商品条码: 9787302517184
  • 版次: 1
  • 开本: 16开
  • 页数: 185
  • 出版年份: 2019
定价:¥69 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
 
内容简介
以机器学习为核心的人工智能已经成为新一代生产力发展的主要驱动因素。新的技术正在向各行各业渗透,大有变革各个领域的趋势。传统产业向智慧产业的升级迫使原行业从业人员逐渐转型,市场上对相关学习材料的需求也日益高涨。帮助广大学习者更好地理解和掌握机器学习,是编写本书的目的。
本书针对机器学习领域中很常见的一类问题——有监督学习,从入门、进阶、深化三个层面由浅入深地进行了讲解。三个层面包括基础入门算法、核心理论及理论背后的数学优化。入门部分用以逻辑回归为代表的广义线性模型为出发点,引入书中所有涉及的知识点;进阶部分的核心理论涵盖了经验风险很小、结构风险很小、正则化及统一的分类边界理论;深化部分的数学优化则主要包括很大熵原理、拉格朗日对偶等理论在数学上的推导,以及对模型求解的主流很优化方法的探讨等。
本书由浅入深,从个别到普便,从自然算法到优化算法,从各个角度深入剖析了机器学习,力求帮助读者循序渐进地掌握机器学习的概念、算法和优化理论。
作者简介
史春奇博士,毕业于日本京都大学,美国Brandeis University博士后,现为港辉金融信息Vice President, 曾任通用电气(中国)有限公司资深数据科学家。
卜晶祎,毕业于上海交通大学,现为友邦保险集团人工智能主管。曾就职于通用电气(中国)研究开发中心有限公司,任资深数据科学家;曾任飞利浦亚洲研究院不错研究员。
施智平博士,首都师范大学信息工程学院教授,院长,毕业于中科院计算技术研究所。于2012年和2017年获北京市科学技术奖二等奖两次,中国计算机学会不错会员,形式化方法专委会委员,人工智能学会会员,智能服务专委会委员,IEEE/ACM 会员。
目录
章线性回归与逻辑回归1
1.1线性回归1
1.1.1函数关系与统计关系1
1.1.2统计与机器学习2
1.2最小二乘法与高斯-马尔可夫定理5
1.2.1最小二乘法5
1.2.2高斯-马尔可夫定理6
1.3从线性回归到逻辑回归8
1.4优选似然估计求解逻辑回归9
1.5最小二乘与优选似然11
1.5.1逻辑回归与伯努利分布11
1.5.2线性回归与正态分布12
1.6小结13
参考文献13
第2章广义线性模型15
2.1广义线性模型概述15
2.1.1广义线性模型的定义15
2.1.2链接函数与指数分布簇17
2.2广义线性模型求解.20
2.3优选似然估计Ⅰ:Fisher信息21
2.4优选似然估计Ⅱ:KL散度与Bregman散度23
2.4.1KL散度23
2.4.2Bregman散度25
2.5小结26
参考文献26
第3章经验风险最小28
3.1经验风险与泛化误差概述28
3.1.1经验风险30
3.1.2泛化误差30
3.1.3欠拟合和过拟合34
3.1.4VC维37
3.2经验风险最小的算法40
3.3分类边界42
3.3.1分类算法的损失函数42
3.3.2分类算法的边界45
3.4小结48
参考文献48
第4章结构风险最小49
4.1经验风险最小和过拟合49
4.2结构风险最小和正则化51
4.2.1从空间角度理解SRM52
4.2.2从贝叶斯观点理解SRM54
4.3回归的正则化55
4.3.1L2正则化和岭回归56
4.3.2L1正则化和Lasso回归57
4.3.3L1、L2组合正则化和ElasticNet回归58
4.4分类的正则化60
4.4.1支持向量机和L2正则化60
4.4.2XGBoost和树正则化62
4.4.3神经网络和DropOut正则化65
4.4.4正则化的优缺点66
4.5小结67
参考文献67
第5章贝叶斯统计与熵68
5.1统计学习的基础:参数估计68
5.1.1矩估计68
5.1.2优选似然估计69
5.1.3最小二乘法71
5.2概率分布与三大统计思维72
5.2.1频率派和正态分布72
5.2.2经验派和正态分布75
5.2.3贝叶斯派和正态分布76
5.2.4贝叶斯统计和熵的关系79
5.3信息熵的理解79
5.3.1信息熵简史79
5.3.2信息熵定义80
5.3.3期望编码长度解释81
5.3.4不确定性公理化解释81
5.3.5基于熵的度量84
5.4优选熵原理86
5.4.1优选熵的直观理解86
5.4.2优选熵解释自然指数分布簇87
5.4.3优选熵解释优选似然估计89
5.5小结90
参考文献90
第6章基于熵的Softmax92
6.1二项分布和多项分布92
6.2Logistic回归和Softmax回归93
6.2.1广义线性模型的解释93
6.2.2Softmax回归94
6.2.3优选熵原理与Softmax回归的等价性96
6.3优选熵条件下的Log-Linear101
6.4多分类界面103
6.4.1感知机和多分类感知机104
6.4.2多分类感知机和结构感知机105
6.5概率图模型里面的Log-Linear106
6.6深度学习里面的Softmax层108
6.7小结109
参考文献109
第7章拉格朗日乘子法111
7.1凸共轭111
7.1.1凸共轭的定义111
7.1.2凸共轭定理113
7.2拉格朗日对偶114
7.2.1拉格朗日对偶概述115
7.2.2Salter条件117
7.2.3KKT条件118
7.3Fenchel对偶120
7.4增广拉格朗日乘子法123
7.4.1近端123
7.4.2增广拉格朗日乘子法和对偶上升算法126
7.5交替方向乘子法129
7.5.1对偶分解130
7.5.2交替方向乘子法概述131
7.6小结131
参考文献132
第8章随机梯度下降法134
8.1随机梯度下降法概述134
8.1.1机器学习场景134
8.1.2随机梯度下降法的定义135
8.1.3随机梯度下降法收敛性分析136
8.1.4收敛性证明139
8.2随机梯度下降法进阶Ⅰ:方差缩减140
8.2.1方差缩减的效果141
8.2.2方差缩减的实现143
8.3随机梯度下降法进阶Ⅱ:加速与适应145
8.3.1加速146
8.3.2适应148
8.3.3加速£适应151
8.4随机梯度下降法的并行实现156
8.5小结160
参考文献161
第9章常见的很优化方法163
9.1最速下降算法163
9.1.1l2范数与梯度下降法164
9.1.2l1范数与坐标下降算法165
9.1.3二次范数与牛顿法166
9.2步长的设定168
9.2.1Armijo-Goldstein准则169
9.2.2Wolfe-Powell准则170
9.2.3回溯线搜索171
9.3收敛性分析171
9.3.1收敛速率172
9.3.2对目标函数的一些假设173
9.4一阶算法:梯度下降法177
9.5二阶算法:牛顿法及其衍生算法178
9.5.1牛顿法与梯度下降法的对比179
9.5.2拟牛顿法180
9.5.3从二次范数的角度看牛顿法182
9.6小结183
参考文献185

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网