您好,欢迎来到聚文网。 登录 免费注册
数据科学中的实用统计学 第2版

数据科学中的实用统计学 第2版

  • 字数: 426000
  • 装帧: 平装
  • 出版社: 人民邮电出版社
  • 作者: (美)彼得·布鲁斯,(美)安德鲁·布鲁斯,(德)彼得·格德克
  • 出版日期: 2021-10-01
  • 商品条码: 9787115569028
  • 版次: 1
  • 开本: 16开
  • 页数: 288
  • 出版年份: 2021
定价:¥99.8 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
1.以通俗易懂的方式,从数据科学的角度系统的阐释重要且实用的统计学概念,介绍如何将各种统计方法应用于数据科学中; 2.运用清晰的解释和丰富的示例,将实用的统计学术语与数据挖掘实践相结合,适用于数据科学的入门初学者; 3.相比于上一版,本书新增了更多Python和R语言示例,读者可以更深入的了解如何在数据科学项目中正确运用各种统计方法; 4.通过本书,你将掌握以下知识: 为什么探索性数据分析是开启数据科学任务的关键一步 随机抽样如何降低偏差并提高数据集的质量 实验设计原则如何针对问题生成确定性答案 如何使用回归方法估计结果并检测异常 用于预测记录所属类别的主要分类方法 从数据中“学习”的统计机器学习方法 从未标记的数据中提取信息的无监督学习方法
内容简介
本书解释了数据科学中至关重要的统计学概念,并介绍了如何将各种统计方法应用于数据科学。作者以通俗易懂、分门别类的方式,阐释了统计学中与数据科学相关的关键概念,并解释了各统计学概念在数据科学中的重要性及有用程度。第2版在第1版的基础上加入了更多以Python和R编写的示例,更清楚地阐释了如何将统计方法用于数据科学。本书适合对R和Python有一定了解的数据科学从业者阅读。
作者简介
彼得·布鲁斯是www.statistics.com统计教育研究所的主席和创始人。他撰写了多篇期刊文章,并且是重采样统计软件的开发者。他是《统计分析导论:基于重采样角度》一书的作者以及《商业数据挖掘:概念、技术和应用程序XLMiner(第三版)》的合著者之一。
目录
第1章探索性数据分析1
1.1结构化数据的要素2
1.2矩形数据4
1.2.1数据框和索引5
1.2.2非矩形数据结构6
1.2.3扩展阅读6
1.3位置估计6
1.3.1均值8
1.3.2中位数和健壮的估计9
1.3.3示例:人口和谋杀率的位置估计10
1.3.4扩展阅读11
1.4变异性估计11
1.4.1标准差以及相关估计13
1.4.2基于百分位数的估计14
1.4.3示例:美国各州人口数量的变异性估计15
1.4.4扩展阅读16
1.5探索数据分布16
1.5.1百分位数与箱线图17
1.5.2频数表和直方图18
1.5.3密度图和密度估计20
1.5.4扩展阅读22
1.6探索二元数据和分类型数据22
1.6.1众数24
1.6.2期望值24
1.6.3概率25
1.6.4扩展阅读25
1.7相关性25
1.7.1散点图28
1.7.2扩展阅读29
1.8探索两个及以上的变量29
1.8.1六边形分箱图和等高线图(绘制数值型数据之间的关系)30
1.8.2两个分类变量32
1.8.3分类型数据和数值型数据33
1.8.4多个变量的可视化35
1.8.5扩展阅读37
1.9小结37
第2章数据与抽样分布39
2.1随机抽样和样本偏差40
2.1.1偏差42
2.1.2随机选择43
2.1.3数量和质量:什么时候数量更重要44
2.1.4样本均值与总体均值45
2.1.5扩展阅读45
2.2选择偏差45
2.2.1均值回归46
2.2.2扩展阅读48
2.3统计量的抽样分布48
2.3.1中心极限定理51
2.3.2标准误差51
2.3.3扩展阅读52
2.4Bootstrap方法52
2.4.1重抽样与Bootstrap方法55
2.4.2扩展阅读55
2.5置信区间55
2.6正态分布57
2.7长尾分布60
2.8学生的t分布62
2.9二项分布64
2.10卡方分布67
2.11F分布68
2.12泊松及其相关分布68
2.12.1泊松分布69
2.12.2指数分布69
2.12.3估计故障率70
2.12.4韦布尔分布70
2.12.5扩展阅读71
2.13小结71
第3章统计实验与显著性检验72
3.1A/B测试73
3.1.1为什么要有对照组75
3.1.2为什么只有A/B,没有C/D76
3.1.3扩展阅读77
3.2假设检验77
3.2.1零假设78
3.2.2备择假设79
3.2.3单向假设检验与双向假设检验79
3.2.4扩展阅读80
3.3重抽样80
3.3.1置换检验80
3.3.2示例:Web黏性81
3.3.3穷尽置换检验和Bootstrap置换检验84
3.3.4置换检验:数据科学的底线85
3.3.5扩展阅读85
3.4统计显著性和p值85
3.4.1p值88
3.4.2α88
3.4.3第一类错误和第二类错误90
3.4.4数据科学与p值9
3.4.5扩展阅读90
3.5t检验91
3.6多重检验92
3.7自由度95
3.8ANOVA97
3.8.1F统计量99
3.8.2双向ANOVA101
3.8.3扩展阅读101
3.9卡方检验101
3.9.1卡方检验:一种重抽样方法102
3.9.2卡方检验:统计理论104
3.9.3费希尔准确检验105
3.9.4与数据科学的关联107
3.9.5扩展阅读107
3.10多臂老虎机算法107
3.11检验力与样本容量110
3.11.1样本容量111
3.11.2扩展阅读113
3.12小结114
第4章回归与预测115
4.1简单线性回归115
4.1.1回归方程117
4.1.2拟合值与残差119
4.1.3最小二乘法120
4.1.4预测与解释(分析)121
4.1.5扩展阅读121
4.2多元线性回归122
4.2.1示例:金县房屋数据123
4.2.2模型评估124
4.2.3交叉验证126
4.2.4模型选择与逐步回归127
4.2.5加权回归130
4.2.6扩展阅读131
4.3使用回归进行预测131
4.3.1外推风险131
4.3.2置信区间与预测区间132
4.4回归中的因子变量133
4.4.1虚拟变量的表示方法134
4.4.2多水平因子变量136
4.4.3有序因子变量138
4.5解释回归方程138
4.5.1相关的预测变量139
4.5.2多重共线性140
4.5.3混淆变量141
4.5.4交互作用与主效应142
4.6回归诊断143
4.6.1离群点144
4.6.2强影响值146
4.6.3异方差、非正态与相关误差148
4.6.4偏残差图与非线性151
4.7多项式回归与样条回归152
4.7.1多项式回归153
4.7.2样条回归155
4.7.3广义可加模型156
4.7.4扩展阅读158
4.8小结158
第5章分类159
5.1朴素贝叶斯算法160
5.1.1为什么进行准确贝叶斯分类是不现实的161
5.1.2朴素贝叶斯问题求解161
5.1.3数值型预测变量164
5.1.4扩展阅读164
5.2判别分析164
5.2.1协方差矩阵165
5.2.2费希尔线性判别分析166
5.2.3一个简单的例子166
5.2.4扩展阅读169
5.3逻辑回归169
5.3.1逻辑响应函数和logit函数170
5.3.2逻辑回归和广义线性模型171
5.3.3广义线性模型172
5.3.4逻辑回归的预测值173
5.3.5系数和优势比的解释174
5.3.6线性回归与逻辑回归:共性与差异175
5.3.7评估模型176
5.3.8扩展阅读179
5.4分类模型评估179
5.4.1混淆矩阵180
5.4.2稀有类问题182
5.4.3准确度、召回率和特异度182
5.4.4ROC曲线183
5.4.5AUC185
5.4.6提升度186
5.4.7扩展阅读187
5.5非平衡数据的处理策略187
5.5.1欠采样188
5.5.2过采样与上(下)加权189
5.5.3数据生成190
5.5.4基于成本的分类191
5.5.5探索预测结果191
5.5.6扩展阅读192
5.6小结193
第6章统计机器学习194
6.1KNN195
6.1.1一个小例子:预测贷款违约196
6.1.2距离的度量198
6.1.3独热编码198
6.1.4标准化(归一化,z分数)199
6.1.5K的选择201
6.1.6KNN作为特征引擎202
6.2树模型204
6.2.1一个简单的例子205
6.2.2递归分割算法207
6.2.3测量同质性或不纯度208
6.2.4让树停止生长209
6.2.5预测连续的值211
6.2.6如何使用树211
6.2.7扩展阅读212
6.3装袋法与随机森林212
6.3.1装袋法213
6.3.2随机森林213
6.3.3变量的重要性217
6.3.4超参数220
6.4提升方法221
6.4.1提升算法222
6.4.2XGBoost222
6.4.3正则化:避免过拟合225
6.4.4超参数与交叉验证228
6.5小结231
第7章无监督学习232
7.1主成分分析233
7.1.1一个简单的例子234
7.1.2计算主成分236
7.1.3解释主成分236
7.1.4对应分析239
7.1.5扩展阅读240
7.2K-均值聚类241
7.2.1一个简单的例子241
7.2.2K-均值算法244
7.2.3簇的解释245
7.2.4选择簇的数量247
7.3层次聚类248
7.3.1一个简单的例子249
7.3.2树状图250
7.3.3凝聚算法251
7.3.4测量相异度252
7.4基于模型的聚类253
7.4.1多元正态分布253
7.4.2混合正态分布254
7.4.3选择簇的数量257
7.4.4扩展阅读259
7.5数据缩放与分类变量259
7.5.1缩放变量260
7.5.2主导变量261
7.5.3分类数据和Gower距离263
7.5.4混合数据聚类中的问题265
7.6小结266
扩展阅读267
作者介绍269
封面介绍269

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网