您好,欢迎来到聚文网。 登录 免费注册
Spark和Python机器学习实战 预测分析核心方法 第2版

Spark和Python机器学习实战 预测分析核心方法 第2版

  • 字数: 411000
  • 装帧: 平装
  • 出版社: 人民邮电出版社
  • 作者: (美)迈克尔·鲍尔斯
  • 出版日期: 2022-03-01
  • 商品条码: 9787115583819
  • 版次: 1
  • 开本: 16开
  • 页数: 332
  • 出版年份: 2022
定价:¥99.9 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
机器学习重点关注的是预测——利用历史和未来之间的关系,根据所知道的预测想知道的。机器学习的核心是一种基于数学/算法的技术,本书聚焦于两类能够实现有效预测结果的算法族,并借助当前流行的 Python 语言来展现如何应用这些算法,使掌握机器学习更加简单。本书展示了如何利用 PySpark 将这两类算法扩展到需要使用多个分布式处理器的超大规模数据集上。 1.深入浅出,简单术语。本书没有用复杂的数学公式,而是用简单的术语来解释算法,并提供示例代码来帮助读者快速上手。 2.针对小白设计,内容丰富易懂。本书专为没有专业数学或统计学背景的读者设计,包含如下内容: ● 为任务选择合适的算法; ● 学习相关机制以及准备数据; ● 通过代码演示算法的PySpark实现,可扩展到使用数百个处理器的大规模数据集上; ● 掌握核心Python机器学习算法包; ● 构建多种有效的预测模型; ● 将训练好的模型应用于各种实际场景; ● 评测模型的性能,以实现更好的质量控制和应用; ● 使用Jupyter Notebook格式的示例代码设计和构建自己的模型。 通过本书,读者将深入探究方案构建背后的机制,并学会选择和应用适合当前问题的算法。具体代码的详细示例,以及惩罚线性回归和集成方法的详细描述可以帮助读者了解机器学习的基本过程。
内容简介
本书着重介绍可以有效预测结果的两类核心算法,包括惩罚线性回归方法和集成方法,然后通过一系列的示例细节来展示针对不同的问题如何使用这些方法。全书分为7章,主要讲述算法的选择、构建预测模型时的要点等内容,并且结合Spark和Python技术,引入岩石与水雷、鲍鱼年龄问题、红酒口感、玻璃分类等经典数据集,将机器学习应用到数据预测分析中,帮助读者全面系统地掌握利用机器学习进行预测分析的基本过程,并将其应用到实际项目中。本书适合想掌握机器学习技能的Python开发人员阅读。
作者简介
迈克尔·鲍尔斯(Michael Bowles)在加利福尼亚大学伯克利分校、纽黑文大学和硅谷的黑客道场教授机器学习,为机器学习项目提供咨询,还参与了半导体检测、药品设计、金融市场交易与优化等领域许多创业公司的创办。他在麻省理工学院获得助理教授职位之后,创办并经营了两家硅谷的创业公司,目前这两家公司都已上市。
目录
第1章做预测的两类核心算法1
1.1为什么这两类算法如此有用1
1.2什么是惩罚线性回归方法5
1.3什么是集成方法7
1.4算法的选择8
1.5构建预测模型的步骤10
1.5.1构造一个机器学习问题12
1.5.2特征提取和特征工程13
1.5.3确定训练好的模型的性能14
1.6各章内容及其依赖关系14
1.7小结16
第2章通过理解数据来了解问题17
2.1剖析一个新问题17
2.1.1属性和标签的不同类型决定模型的选择19
2.1.2新数据集的注意事项20
2.2分类问题:用声呐发现未爆炸的水雷21
2.2.1岩石与水雷数据集的物理特性21
2.2.2岩石与水雷数据集的统计概要24
2.2.3用分位数图展示异常点26
2.2.4类别属性的统计特征28
2.2.5用Pythonpandas对岩石与水雷数据集进行统计分析28
2.3对岩石与水雷数据集属性进行可视化31
2.3.1用平行坐标图进行可视化31
2.3.2对属性和标签间关系进行可视化33
2.3.3用热图对属性和标签的相关性进行可视化40
2.3.4对岩石与水雷数据集探究过程的小结41
2.4以因素变量进行实数值预测:鲍鱼的年龄41
2.4.1回归问题的平行坐标图——鲍鱼年龄问题的属性关系可视化47
2.4.2将相关性热图用于回归问题——鲍鱼年龄问题的属性对相关性的可视化50
2.5用实数值属性进行实数值预测:评估红酒口感52
2.6多类别分类问题:玻璃分类59
2.7用PySpark理解大规模数据集63
2.8小结67
第3章构建预测模型:平衡性能、复杂度和大数据69
3.1基本问题:理解函数逼近69
3.1.1使用训练数据70
3.1.2评估预测模型的性能72
3.2影响算法选择及性能的因素——复杂度及数据72
3.2.1简单问题和复杂问题的比较73
3.2.2简单模型和复杂模型的比较75
3.2.3影响预测算法性能的因素79
3.2.4选择算法:线性或者非线性79
3.3评测预测模型的性能80
3.3.1不同类型问题的性能评测80
3.3.2模拟部署后模型的性能94
3.4模型与数据的均衡95
3.4.1通过权衡问题复杂度、模型复杂度和数据集规模来选择模型96
3.4.2使用前向逐步回归来控制过拟合97
3.4.3评估并理解预测模型102
3.4.4通过惩罚回归系数来控制过拟合——岭回归104
3.5在超大规模数据集上用PySpark训练惩罚回归模型113
3.6小结116
第4章惩罚线性回归117
4.1为什么惩罚线性回归方法如此有用117
4.1.1模型训练足够快118
4.1.2有变量的重要性信息118
4.1.3部署时评估足够快118
4.1.4性能可靠118
4.1.5稀疏解119
4.1.6问题可能需要线性模型119
4.1.7使用集成方法的时机119
4.2惩罚线性回归:对线性回归进行正则化以获得很优性能119
训练线性模型:最小化误差等121
4.3求解惩罚线性回归问题126
4.3.1理解最小角度回归及其与前向步进回归的关系126
4.3.2使用Glmnet:快速且通用136
4.4将线性回归扩展到分类问题141
4.4.1用惩罚回归求解分类问题141
4.4.2多类别分类问题的求解145
4.4.3理解基扩展:用线性方法求解非线性问题145
4.4.4将非数值属性引入线性方法147
4.5小结150
第5章用惩罚线性回归方法构建预测模型153
5.1惩罚线性回归的Python包153
5.2多变量回归:预测红酒口感154
5.2.1构建并测试预测红酒口感的模型155
5.2.2部署前在整个数据集上进行训练158
5.3二元分类:用惩罚线性回归探测未爆炸水雷165
5.4多类别分类:犯罪现场玻璃样本分类184
5.5用PySpark实现线性回归和分类187
5.6用PySpark预测红酒口感188
5.7用PySpark实现逻辑斯蒂回归:岩石与水雷193
5.8将类别变量引入PySpark模型:预测鲍鱼年龄198
5.9具有元参数优化的多类别逻辑斯蒂回归202
5.10小结205
第6章集成方法207
6.1二元决策树207
6.1.1如何用二元决策树进行预测210
6.1.2如何训练二元决策树210
6.1.3决策树的训练等同于分割点的选择213
6.1.4二元决策树的过拟合217
6.1.5针对分类问题和类别特征所做的修改220
6.2自举汇聚:投票法221
6.2.1投票法如何工作221
6.2.2投票法小结232
6.3梯度提升法232
6.3.1梯度提升法的基本原理232
6.3.2获取梯度提升法的很好性能236
6.3.3针对多变量问题的梯度提升法239
6.3.4梯度提升法小结243
6.4随机森林法243
6.4.1随机森林法:投票法加随机属性子集246
6.4.2影响随机森林法性能的因素246
6.4.3随机森林法小结248
6.5小结248
第7章用Python构建集成模型251
7.1用Python集成方法包求解回归问题251
7.1.1用梯度提升法预测红酒口感251
7.1.2构建随机森林模型预测红酒口感257
7.2将非数值属性引入Python集成模型265
7.2.1用Python将鲍鱼性别属性编码引入梯度提升法265
7.2.2用梯度提升法评估性能和编码变量的重要性267
7.2.3用Python将鲍鱼性别属性编码引入随机森林回归269
7.2.4评估性能和编码变量的重要性272
7.3用Python集成方法求解二元分类问题273
7.3.1用Python梯度提升法探测未爆炸水雷273
7.3.2测定梯度提升分类器的性能276
7.3.3用Python随机森林法探测未爆炸水雷278
7.3.4构建随机森林模型探测未爆炸水雷279
7.3.5测定随机森林分类器的性能283
7.4用Python集成方法求解多类别分类问题285
7.4.1处理类别不均衡问题286
7.4.2用梯度提升法对玻璃进行分类286
7.4.3测定梯度提升模型在玻璃分类问题上的性能291
7.4.4用随机森林法对玻璃进行分类292
7.4.5测定随机森林模型在玻璃分类问题上的性能296
7.5用PySpark集成方法包求解回归问题297
7.5.1用PySpark集成方法预测红酒口感298
7.5.2用PySpark集成方法预测鲍鱼年龄303
7.5.3用PySpark集成方法区分岩石与水雷308
7.5.4用PySpark集成方法识别玻璃类型312
7.6小结314

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网