您好,欢迎来到聚文网。 登录 免费注册
大数据分析——基于R语言

大数据分析——基于R语言

  • 字数: 744000
  • 装帧: 平装
  • 出版社: 清华大学出版社
  • 作者: (印)塞玛·阿查亚
  • 出版日期: 2020-08-01
  • 商品条码: 9787302557326
  • 版次: 1
  • 开本: 16开
  • 页数: 492
  • 出版年份: 2020
定价:¥89 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
人们已经可以对大量的数据进行不同的分析,并未不同的行业运营提供广泛而有用的见解,但目前存在的问题是缺乏针对不同目标的数据分析的支持、工具和技术。R是一种统计和分析语言,它的出现拯救了我们!
内容简介
这本书主要面向计算机科学和工程专业的本科生。同时,这本书也可供IT专业数据分析师、企业决策人员和业务分析人员参考。 本书由Acharya编著,介绍了R语言作为非稳态数据分析和可视化工具的强大功能,并向学习者介绍了几种数据挖掘算法和可视化方法。
作者简介
Seema Acharya是Infosys有限公司教育、培训和评估部的高级校长。她是一位技术传道者、学习战略家,也是一位拥有超过15年的信息技术行业学习/教育服务经验的作者。她在全球范围内设计和实施了几个大规模的能力发展项目,包括组织能力需求分析、概念化、设计、开发和部署能力发展项目。她的兴趣和专长主要包括商业智能和大数据,以及分析技术,如数据仓库、数据挖掘、数据分析、文本挖掘和数据可视化
目录
第1章R概述  1
1.1概述1
1.1.1R是什么1
1.1.2为什么是R1
1.1.3R相对于其他编程语言的优势3
1.2下载并安装R4
1.2.1下载R4
1.2.2安装R6
1.2.3R的主要文件类型7
1.3集成开发环境和文本编辑器8
1.3.1R Studio8
1.3.2具有StatET插件的Eclipse9
1.4R中软件包的处理10
1.4.1R软件包的安装11
1.4.2准备开始的一些函数12
本章小结17
关键术语18
巩固练习18
单项选择题参考答案19

第2章开始使用R  20
2.1概述20
2.2处理目录20
2.2.1getwd()命令20
2.2.2setwd()命令21
2.2.3dir()函数21
2.3R中的数据类型23
2.3.1强制类型转换26
2.3.2引入变量和ls()函数26
2.4数据探索的一些命令27
2.4.1加载内部数据集27
本章小结38
关键术语38
实战练习38
大数据分析——基于R语言目录
第3章在R中加载及处理数据  40
3.1概述40
3.2分析数据处理的挑战40
3.2.1数据格式41
3.2.2数据质量41
3.2.3项目范围41
3.2.4利益方期望的输出结果的管理41
3.3表达式、变量和函数42
3.3.1表达式42
3.3.2逻辑值42
3.3.3日期43
3.3.4变量45
3.3.5函数45
3.3.6处理数据中的文本48
3.4R中缺失值的处理50
3.5利用as操作符改变数据的结构51
3.6向量53
3.6.1顺序向量54
3.6.2rep()函数54
3.6.3向量访问55
3.6.4向量名56
3.6.5向量的算术运算57
3.6.6向量循环58
3.7矩阵60
3.7.1矩阵访问61
3.8因子65
3.8.1创建因子65
3.9列表67
3.9.1列表标签和值68
3.9.2从列表中添加和删除元素69
3.9.3列表的大小70
3.10一些常见的分析任务72
3.10.1探索数据集72
3.10.2数据集的条件操作72
3.10.3合并数据75
3.11变量的聚合和分组处理76
3.11.1aggregate()函数76
3.11.2tapply()函数76
3.12使用R进行简单分析78
3.12.1输入78
3.12.2描述数据结构78
3.12.3描述变量结构79
3.12.4输出82
3.13读取数据的方法83
3.13.1CSV和电子表格83
3.13.2从包中读取数据86
3.13.3从Web/API中读取数据86
3.13.4读取一个JSON(JavaScript Object Notation)文档88
3.13.5读取XML文件89
3.14数据输入的R GUI的比较92
3.15使用R连接数据库及商务智能系统94
3.15.1RODBC95
3.15.2使用MySQL和R96
3.15.3使用PostgreSQL和R96
3.15.4使用SQLite和R97
3.15.5使用JasperDB和R97
3.15.6使用Pentaho和R98
3.16案例研究: 日志分析99
本章小结101
关键术语103
巩固练习103
单项选择题参考答案106

第4章在R中探索数据  107
4.1概述107
4.2数据框107
4.2.1数据框访问108
4.2.2数据框排序110
4.3用于理解数据框中数据的R函数111
4.3.1dim()函数111
4.3.2str()函数111
4.3.3summary()函数112
4.3.4names()函数112
4.3.5head()函数112
4.3.6tail()函数113
4.3.7edit()函数113
4.4加载数据框114
4.4.1从CSV文件中读取数据114
4.4.2获取数据框子集115
4.4.3从TSV文件中读取数据115
4.4.4从表格读取数据116
4.4.5合并数据框117
4.5探索数据117
4.6数据汇总118
4.7查找缺失值122
4.8无效值和异常值124
4.9描述性统计126
4.9.1数据全距126
4.9.2频数126
4.9.3均值和中值127
4.9.4标准差131
4.9.5众数132
4.10利用可视化发现数据中的问题134
4.10.1对单变量的分布进行可视化检查135
4.10.2直方图136
4.10.3密度图138
4.10.4柱状图140
本章小结144
关键术语145
巩固练习145
单项选择题参考答案147

第5章线性回归——使用R  148
5.1概述148
5.2模型拟合148
5.3线性回归149
5.3.1R中的lm()函数149
5.4线性回归的假设161
5.5验证线性假设162
5.5.1使用散点图162
5.5.2使用残差与拟合图162
5.5.3使用正态Q-Q图162
5.5.4使用位置尺度图163
5.5.5使用残差与杠杆图164
案例研究: 推荐引擎169
本章小结170
关键术语171
巩固练习171
实战练习172
单项选择题参考答案172

第6章逻辑回归  173
6.1概述173
6.2什么是回归174
6.2.1为什么要使用逻辑回归175
6.2.2为什么不能使用线性回归176
6.2.3逻辑回归的假设176
6.3广义线性模型概述177
6.4什么是逻辑回归179
6.4.1逻辑回归的使用179
6.4.2二项逻辑回归179
6.4.3Logistic函数179
6.4.4Logit函数180
6.4.5似然函数181
6.4.6极大似然估计183
6.5二元逻辑回归185
6.5.1二元逻辑回归概述185
6.5.2具有单分类预测变量的二元逻辑回归186
6.5.3三维列联表和k维列联表的二元逻辑回归191
6.5.4具有连续协变量的二元逻辑回归191
6.6诊断逻辑回归195
6.6.1残差195
6.6.2拟合性能测试196
6.6.3受试者工作特征曲线196
6.7多元逻辑回归模型197
案例研究: 受众/顾客洞察分析204
本章小结206
关键术语207
巩固练习208
单项选择题参考答案210

第7章决策树  211
7.1概述211
7.2什么是决策树211
7.3决策树在R中的表示216
7.3.1使用party包进行表示216
7.3.2使用rpart包进行表示226
7.4决策树学习中的问题解决方案228
7.4.1由属性-值对表示的实例228
7.4.2目标函数具有离散输出值229
7.4.3析取描述229
7.4.4训练数据可能包含错误或缺失属性值229
7.5基本决策树学习算法230
7.5.1ID3算法231
7.5.2哪个属性是优选的分类器232
7.6度量特征233
7.6.1熵-度量同质性233
7.6.2信息增益——度量熵的期望约简234
7.7决策树学习中的假设空间搜索236
7.8决策树学习中的归纳偏差237
7.8.1优选偏差与限定偏差237
7.9为什么优选短假设238
7.9.1选择短假设的原因238
7.9.2争论的问题238
7.10决策树学习中的问题238
7.10.1过拟合238
7.10.2合并连续值属性241
7.10.3选择属性的其他方法241
7.10.4处理具有缺失属性值的训练样本242
7.10.5处理具有不同成本的属性242
案例研究: 帮助零售商预测店内客流243
本章小结244
关键术语245
巩固练习246
实战练习247
单项选择题参考答案248

第8章R中的时间序列  249
8.1概述249
8.2时间序列数据250
8.2.1数据可视化的基本R函数250
8.2.2用于数据操作的基本R函数259
8.2.3时间序列线性滤波267
8.3读取时间序列数据269
8.3.1scan()函数269
8.3.2ts()函数269
8.4绘制时间序列数据271
8.5分解时间序列数据272
8.5.1分解非季节性数据272
8.5.2分解季节性数据274
8.5.3季节性调整277
8.5.4回归分析278
8.6使用指数平滑进行预测279
8.6.1简单指数平滑279
8.6.2Holts指数平滑279
8.6.3Holt-Winters指数平滑280
8.7ARIMA模型281
8.7.1差分时间序列282
8.7.2选择一个候选ARIMA模型282
8.7.3使用ARIMA模型进行预测284
8.7.4自相关性和偏自相关性分析284
8.7.5诊断检验285
实践任务286
案例研究: 保险欺诈检测292
本章小结293
关键术语295
巩固练习295
单项选择题参考答案299

第9章聚类  300
9.1概述300
9.2什么是聚类300
9.3聚类中的基本概念301
9.3.1点、空间和距离302
9.3.2聚类策略305
9.3.3维数灾难306
9.3.4向量之间的夹角307
9.4分层聚类308
9.4.1欧氏空间中的分层聚类308
9.4.2分层聚类的效率312
9.4.3控制分层聚类的其他规则313
9.4.4非欧氏空间的分层聚类314
9.5k-means算法314
9.5.1k-means基本原理314
9.5.2初始化k-means集群319
9.5.3选择k的正确值319
9.5.4Bradley、Fayyad和Reina算法319
9.5.5使用BFR算法处理数据320
9.6CURE算法321
9.6.1CURE中的初始化321
9.6.2实现CURE算法321
9.7非欧氏空间中的聚类322
9.7.1在GRGPF算法中表示集群323
9.7.2初始化聚类树323
9.7.3在GRGPF算法中增加点323
9.7.4拆分和合并集群324
9.8流和并行数据的聚类325
9.8.1流计算模型325
9.8.2流聚类算法326
9.8.3并行环境中的聚类328
案例研究: 个性化产品推荐329
本章小结330
关键术语331
巩固练习332
实战练习333
单项选择题参考答案339

第10章关联规则  340
10.1概述340
10.2频繁项集341
10.2.1关联规则341
10.2.2规则评估度量标准342
10.2.3蛮力法344
10.2.4两步法344
10.2.5Apiori算法346
10.3数据结构概述350
10.3.1表示项集的集合351
10.3.2事务数据354
10.3.3关联: 项集和规则项356
10.4挖掘算法接口358
10.4.1apriori()函数358
10.4.2eclat()函数371
10.5辅助函数372
10.5.1计算项集的支持度372
10.5.2规则推导372
10.6事务抽样374
10.7生成人工事务数据375
10.7.1子项集、超项集、优选项集和闭项集375
10.8兴趣度的其他度量378
10.9基于距离聚类事务和关联379
案例研究: 使用户生成的内容变得有价值381
本章小结382
关键术语383
巩固练习384
实战练习386
单项选择题参考答案393

第11章文本挖掘  394
11.1概述394
11.2文本挖掘的定义395
11.2.1文档集395
11.2.2文档395
11.2.3文档特征395
11.2.4领域和背景知识396
11.3文本挖掘中的一些挑战396
11.4文本挖掘和数据挖掘396
11.5R中的文本挖掘396
11.6文本挖掘的总体架构406
11.6.1预处理任务406
11.6.2核心挖掘操作407
11.6.3表示层成分与浏览功能407
11.6.4精简技术407
11.7R中文档的预处理407
11.8核心文本挖掘操作409
11.8.1分布(比例)410
11.8.2频繁概念集410
11.8.3近频繁概念集410
11.8.4关联411
11.9文本挖掘的背景知识413
11.10文本挖掘查询语言413
11.11挖掘频繁模式、关联和相关性的基本概念和方法413
11.11.1基本概念414
11.11.2购物篮分析414
11.11.3关联规则415
11.12频繁项集、闭项集和关联规则416
11.12.1频繁项集416
11.12.2闭项集416
11.12.3关联规则挖掘416
11.13频繁项集的挖掘方法417
11.13.1Apriori算法: 发现频繁项集417
11.13.2从频繁项集生成关联规则419
11.13.3提高Apriori算法的效率421
11.13.4挖掘频繁项集的模式生长方法422
11.13.5使用垂直数据格式挖掘频繁项集422
11.13.6挖掘闭模式和优选模式423
11.14模式评估方法424
11.14.1强规则并不一定有趣425
11.14.2从关联分析到相关性分析425
11.14.3模式评估度量的比较426
11.15情感分析427
11.15.1情感分析的目的427
11.15.2情感分析要用到的知识427
11.15.3情感分析的输入428
11.15.4情感分析的工作方式428
案例研究: 客户群体的信用卡消费可以通过商业需求进行识别428
本章小结429
关键术语431
巩固练习432
实战练习434
单项选择题参考答案436

第12章使用R实现并行计算  437
12.1概述437
12.2R工具库概述438
12.2.1在R中使用高性能计算的动机438
12.3HPC中使用R的时机439
12.3.1单节点中的并行计算440
12.3.2多节点的并行化支持440
12.4R对并行化的支持443
12.4.1R中对单节点并行化执行的支持443
12.4.2使用消息传递接口对多个节点上的并行执行提供支持450
12.4.3使用其他分布式系统的包454
12.5R中并行包的比较461
案例研究: 销售预测462
本章小节464
关键术语465
巩固练习466
实战练习468
单项选择题参考答案471
摘要
     第3章 Chapter 3在R中加载及处理数据 学习成果 通过本章的学习,您将能够:  将不同类型的数据存储为向量(vector)、矩阵(matrixe)和列表(list);  从csv文件、电子表格(spreadsheet)、Web、JASON文档和XML中加载数据;  处理缺失及无效的数据;  在数据上运行R函数(sum()、min()、max()、rep()、grep()、substr()、strsplit()等);  用R访问数据库,如MySQL、PostgreSQL、SQLlite和JasperDB;  创建可视化,以加深对数据的理解。 3.1概述 如今,企业应用程序产生了大量的数据。对这些数据进行分析可以得出有用的见解,从而帮助决策者做出更好和更快的决策。本章将介绍R支持的不同的数据类型,如数字、文本、逻辑值、日期等。同时介绍各种R对象,如向量、矩阵、列表、数据集等,以及如何使用R函数sum()、min()、max()、rep()和字符串函数substr()、grep()、strclip()等操作数据。探讨将csv(comma separated values)文件、电子表格、XML文档、JASON(JavaScript Object Notation)文档、Web数据等导入R,以及R与MySQL、PostGreSQL、SQLite等数据库的连接方式。数据分析中存在很多挑战,例如数据并不总是同质的,即数据的来源不同,并且格式也不同。在保证数据质量的同时会带来若干挑战,利益相关者也会从各种角度观察数据,并且会产生不同的需求。 3.2分析数据处理的挑战 分析数据处理是商业智能的一部分,包括关系数据库、数据仓库、数据挖掘和报告挖掘,这是一种计算机处理技术,可以处理不同类型的业务,如销售、预算、财务报告、管理报告等,以上这些处理技术都需要大数据技术的支持。 商业分析结合了大数据技术,在商业数据分析过程中出现了不同的挑战。然而,这些挑战大多与数据有关,它们在项目的早期阶段就出现了。 3.2.1数据格式 数据是商业分析的主要元素。商业分析使用数据集(sets of data)存储大量的数据。对研究人员或开发者而言,选择数据格式是分析数据处理中的首要挑战。分析数据处理需要一个完整的数据集,在没有数据集的情况下,开发人员会在进一步的处理中遇到问题。 R是一种文档健全的编程语言,它将数据存储成对象的形式。R有一个非常简单的语法,有助于处理任何类型的数据。R具有许多软件包和功能,如可以处理数据格式类型不同的开放数据库的连接(ODBC),ODBC支持CSV、MS Excel、SQL等数据格式。 大数据分析——基于R语言第3章在R中加载及处理数据3.2.2数据质量 保证数据质量是分析数据处理的另一个挑战,它要求业务分析师提供完美的信息推断、异常值及没有任何缺失值的输出。输入或输出较差的数据一定会给出不符合质量要求的结果。 在R的帮助下,业务分析师可以保证数据质量。不同的R工具可以帮助业务分析师删除无效数据、替换缺失值和删除数据中的异常值。 3.2.3项目范围 基于分析数据处理的项目成本高,并且耗时长,因此在启动新项目前,业务分析师应该分析项目的范围,确定所需外部数据的数量、交付时间和与项目有关的其他参数。 3.2.4利益方期望的输出结果的管理 在分析数据处理中,分析人员设计的项目会产生不同类型的输出,如pvalue、自由度等。但是,用户或利益方更希望看到输出。利益方不希望在数据处理、设想、假设、pvalue、卡方值(chisquare value)或任何其他值中看到约束。因此,一个分析项目应努力满足利益方的所有期望。 业务分析师应该使用透明的方法和处理流程,也应该使用交叉验证的方法验证数据。如果业务分析师使用分析数据处理的标准步骤产生完美的输出,则不会遇到任何问题。数据输入、处理、描述性统计、数据可视化、报告生成和输出构成了分析数据处理的顺序,分析人员在对项目进行业务分析时应该遵循这个流程。 小练习 1. 什么是分析数据处理? 答: 分析数据处理是业务智能化的一部分,包括关系数据库、数据仓库、数据挖掘和报告挖掘。 2. 列出分析数据处理中的挑战。 答: 分析数据处理中的一些挑战包括数据格式、数据质量、项目范围、利益方期望的输出结果的管理。 3. 分析数据处理的一般步骤是什么? 答: 数据输入、处理、描述性统计、数据可视化、报告生成和输出是分析数据处理的一般步骤。 3.3表达式、变量和函数 首先熟悉一下R的接口,从练习表达式、变量和函数开始。 3.3.1表达式 观察几个算术运算,如表3.1给出的加法、减法、乘法、除法、求幂、取余(模运算)、整除和求平方根。表3.1算术运算运算操作符描述示例加法x + yy加上x> 4 + 8 [1] 12减法x - yx减去y > 10 - 3 [1] 7乘法x  yx 乘以 y> 7  8 [1] 56除法x / yx 除以 y< 8/3 [1] 2.666667指数运算x ^ y x  yx 的y次幂> 2 ^ 5 [1] 32 > x +1 5 8 9但是,向量还是保持它本身的元素。> x \[1\] 4 7 8如果向量需要更新为新值

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网