您好,欢迎来到聚文网。 登录 免费注册
R数据分析秘笈

R数据分析秘笈

  • 装帧: 平装
  • 出版社: 机械工业出版社
  • 作者: (美)维西瓦·维斯瓦纳坦(Viswa Viswanathan),(美)珊蒂·维斯瓦纳坦(Shanthi Viswanathan) 著;鱼翔 译
  • 出版日期: 2016-04-01
  • 商品条码: 9787111531739
  • 版次: 1
  • 开本: 16开
  • 页数: 257
  • 出版年份: 2016
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书旨在为已有一定基础的R用户提供现成的方法来实现重要的数据分析任务。全书共分为11章。靠前章涵盖了进行真正的数据分析任务之前的准备工作。第2章讨论了数据分析师在实施特定的分析手段之前常用的理解数据的做法。第3章涵盖了运用分类技术肚饿方法。第4章是关于回归技术的方法。第5章介绍数据简化。第6章介绍时间序列分析。第7章讨论了社交网络分析。第8章介绍制作文档和呈现分析的方法。第9章解决了面对大型数据如何书写高效且简洁的R代码的问题。靠前0章讨论了R在处理空间数据上的强大功能。靠前1章介绍了R与其他系统的连接。
作者简介
Viswa Viswanathan是西顿霍尔大学斯蒂尔曼商学院计算和决策科学系的一名副教授。在获得人工智能领域的博士学位之后,Viswa先从事了十多年学术工作,接下来的十几年在软件行业高就。在这段时间中,他曾就职于Infosys、Igate和Starbase公司。他于2011年重新回归学术界。
Viswa在很好广泛的领域中开展教学,包括运筹学、计算机科学、软件工程、管理信息系统,以及企业系统。除了在大学中教学之外,Viswa还负责专业人士的培训项目。他有多篇同行评议的研究论文发表在《Operations Research》《IEEE Software》《Computers and Industrial Engineering》以及《International Journal of Artificial Intelligence in Education》等期刊上。他也编写了《Data Analytics with R:A hands-on approach》一书。
Viswa很好享受亲自动手开发软件的过程,并且独立构思、搭建、开发、部署了几个基于网络的应用程序。
除了对数据分析、人工智能、计算机科学、软件工程等技术领域有深厚的兴趣之外,Viswa也对教育有浓厚的兴趣,特别关注学习的根源和培养更深入学习的方法。他已经在这个领域做了不少研究并希望在未来继续研究这一学科。
Viswa想对Amitava Bagchi和Anup Sen教授表示由衷的感激,他们在Viswa的早期研究生涯中鼓舞了他。同时,他也很感激几个很好聪明的同事,比如Rajesh Venkatesh、Dan Richner和Sriram Bala,他们极大地影响了他的思想。他的婶婶Analdavalli,他的姐妹Sankari,以及他的妻子Shanthi,在辛勤工作上教会了他很多,即便他只吸收了一点皮毛也觉得受益匪浅。他的儿子Nitin和Siddarth也在很多主题上给出了不计其数的深刻评论。

Shanthi Viswanathan是一位经验丰富的技术专家,她为许多企业客户提供技术管理和企业结构咨询。她曾工作于Infosys、Oracle和Accenture公司。作为一名顾问,Shanthi为一些大型机构,比如Canon、Cisco、Celgene、Amway、Time Warner Cable和GE等,在数据架构和分析,不错数据管理,面向服务的架构,商业流程管理,以及建模等方面提供帮助。当她空闲时,Shanthi会在纽约州和新泽西州的郊外徒步旅行,摆弄园艺,以及教授瑜伽。
Shanthi想要感谢她的丈夫Viswa,在他们一起徒步旅行时关于各种主题展开的深入讨论;以及将她带入R和Java的世界。她也要感谢她的儿子Nitin和Siddarth使她进入了数据分析领域。 
目录
译者序
作者简介
审校者简介
前言
第1章获取并准备好材料—数据1
1.1引言1
1.2从csv文件中读取数据1
1.3读取XML数据4
1.4读取JSON数据6
1.5从定宽格式文件中读取数据7
1.6从R数据文件和R库中读取数据8
1.7删除带有缺失值的样本10
1.8用均值填充缺失值11
1.9删除重复样本13
1.10将变量缩放至[0,1]区间14
1.11对数据框中的数据做正则化或标准化15
1.12为数值数据分箱17
1.13为分类变量创建哑变量18
第2章那里面有什么——探索性数据分析21
2.1引言21
2.2创建标准化数据概览21
2.3抽取数据集的子集23
2.4分割数据集25
2.5创建随机数据分块26
2.6创建直方图、箱线图、散点图等标准化图像29
2.7在网格窗口上创建多个图像37
2.8选择图形设备38
2.9用lattice包绘图39
2.10用ggplot2包绘图42
2.11创建便于比较的图表47
2.12创建有助于发现因果关系的图表51
2.13创建多元图像53
第3章它属于哪儿——分类技术55
3.1引言55
3.2创建误差/分类–混淆矩阵55
3.3创建ROC图58
3.4构建、绘制和评估—分类树61
3.5用随机森林模型分类66
3.6用支持向量机分类69
3.7用朴素贝叶斯分类72
3.8用K最近邻分类74
3.9用神经网络分类77
3.10用线性判别函数分类79
3.11用逻辑回归分类80
3.12用AdaBoost来整合分类树模型83
第4章给我一个数——回归分析86
4.1引言86
4.2计算均方根误差86
4.3建立用于回归的KNN模型88
4.4运用线性回归94
4.5在线性回归中运用变量选择99
4.6建立回归树102
4.7建立用于回归的随机森林模型108
4.8用神经网络做回归112
4.9运用K-折交叉验证114
4.10运用留一交叉验证来限制过度拟合116
第5章你能化简它吗——数据简化技术118
5.1引言118
5.2用K-均值聚类法实现聚类分析118
5.3用系统聚类法实现聚类分析124
5.4用主成分分析降低维度127
第6章从历史中学习——时间序列分析134
6.1引言134
6.2创建并检查日期对象134
6.3对日期对象进行操作138
6.4对时间序列数据做初步分析140
6.5使用时间序列对象143
6.6分解时间序列149
6.7对时间序列数据做滤波151
6.8用HoltWinters方法实现平滑和预测152
6.9创建自动的ARIMA模型155
第7章这都是你的关系——社交网络分析157
7.1引言157
7.2通过公共API下载社交网络数据157
7.3创建邻接矩阵和连边列表161
7.4绘制社交网络数据164
7.5计算重要的网络度量指标176
第8章展现你最好的一面——制作文档和呈现分析报告182
8.1引言182
8.2用RMarkdown和knitR创建数据分析报告182
8.3用shiny创建交互式Web应用191
8.4用RPresentation为分析报告创建PDF幻灯片196
第9章事半功倍——高效且简洁的R代码201
9.1引言201
9.2利用向量化操作201
9.3用apply函数操作整行或整列203
9.4用lapply和sapply将函数应用于整组元素206
9.5在向量的一个子集上应用函数208
9.6用plyr完成分割–应用–组合策略210
9.7用数据表对数据进行切片、切块和组合213
第10章在哪儿——地理空间信息数据分析219
10.1引言219
10.2下载并绘制一个地区的谷歌地图219
10.3在已下载的谷歌地图上叠加数据222
10.4将ESRI形状文件导入到R中224
10.5使用sp包绘制地理数据226
10.6从maps包中获取地图228
10.7从包含空间及其他数据的普通数据框中创建空间数据框229
10.8通过合并普通数据框和空间对象生成空间数据框230
10.9为已有的空间数据框添加变量234
第11章友好协作——连接到其他系统237
11.1引言237
11.2在R中使用Java对象237
11.3从Java中用JRI调用R函数243
11.4从Java中用Rserve调用R函数245
11.5从Java中执行R脚本248
11.6使用xlsx包连接到Excel249
11.7从关系型数据库—MySQL中读取数据252
11.8从非关系型数据库—MongoDB中读取数据256
摘要
Preface  前  言作为一种统计计算、数据分析和绘图环境,自从2000年1.0版本问世以来,R的流行度获得了指数级的增长。一些电子表格用户想要完成电子表格软件无法实现的功能,或需要处理的数据量大到电子表格软件无法方便地完成,他们寄希望于R。类似地,商业分析软件用户也被这个免费且强大的选项所吸引。于是,一大群人目前正寄希望于用R快速处理事务。
    作为一个可扩展的系统,R的功能分布在众多的包中,每一个包囊括了大量函数。即使是经验丰富的使用者也很难将所有的细节记在脑海中。本书旨在为已有一定基础的R用户提供现成的方法来实现很多重要的数据分析任务。当面对一个特定任务时,用户可以在几分钟内找到合适的方法并实施,而不必在互联网或众多书籍中苦苦搜索。
    本书涵盖以下内容第1章涵盖了进行真正的数据分析任务之前的准备工作。本章提供了从不同源文件格式中读取数据的方法。此外,在实际分析数据前,我们执行了几个预处理和数据清洗步骤,本章还提供了以下任务的处理方法:处理缺失值和重复值、数值的缩放或标准化、在数值型变量和分类变量之间的转换,以及创建哑变量。
    第2章讨论了分析师在实施特定的分析手段之前常用来理解数据的几种做法。本章提供了用于汇总数据、分割数据、抽取子集和建立随机数据分块的方法,也提供了使用标准化图像来展现潜在模式的方法,还提供了使用lattice和ggplot2包绘图的方法。
    第3章涵盖了运用分类技术的方法。本章包括分类树、随机森林、支持向量机、朴素贝叶斯、K最近邻、神经网络、线性和二次判别分析,以及逻辑回归。
    第4章是关于回归技术的方法。本章包括K最近邻、线性回归、回归树、随机森林和神经网络。
    第5章介绍了数据简化的方法。本章提供了通过K-均值和系统聚类的聚类分析手段,同时也涵盖了主成分分析。
    第6章包含了一些技巧,包括处理日期和日期/时间对象,创建时间序列对象并画图,时间序列的分解、滤波和平滑,以及执行ARIMA分析。
    第7章讨论了社交网络。本章介绍如何通过公共API获取社交网络数据,创建、绘制社交网络图,并计算重要的网络度量指标。
    第8章讨论了呈现分析结果的技术。本章包含以下方法:使用 R Markdown 和 knitR 来创建报告,通过使用 shiny 创建交互式应用使读者直接与数据进行交互,用RPres创建幻灯片。
    第9章解决了面对大型数据时如何书写高效且简洁的R代码的问题。 本章包含了通过apply系列函数、plyr包和数据表来切割数据的方法。
    第10章包含了开拓R在处理空间数据上的强大功能的主题。本章涵盖了以下方法:通过RGoogleMaps来获取GoogleMaps数据并且在其上添加自有数据,导入ESRI形状文件并绘图,从maps包中导入地图数据,利用sp包创建并绘制空间数据框对象。
    第11章包含了R与其他系统的交互。本章包含了R与Java、Excel、关系型数据库和非关系型数据库(分别以MySQL和MongoDB为例)之间的连接。
    阅读须知本书中的所有代码均在 R 3.0.2 (Frisbee Sailing) 版本和 3.1.0 (Spring Dance)版本上测试通过。当安装或者载入某些包时,你也许会得到警告消息,提示你这些代码是为不同的版本编译的,不过这并不会实际影响本书中的任何代码。
    本书面向的读者对象本书非常适合于那些已经有一定的R基础,但尚无将R广泛用于各种数据分析的经验,同时希望快速入门分析任务的读者。本书有助于在下列几个方面提高分析技巧的人士:
    实现高级分析并创建信息充实的专业图表。
    熟练地从各种来源获取数据。
    应用监督型和无监督型的数据挖掘技术。
    使用R的功能来呈现专业的分析报告。
    每章的内容安排在本书中,你会发现有几个标题是频繁出现的(准备就绪、要怎么做、工作原理、更多细节、参考内容)。
    为了让读者在完成一个方法时获得清晰的指导,我们采用了以下内容编排方式:
    准备就绪这一节会给出内容概述,并且会描述如何准备好本节所需的软件以及任何其他前期准备工作。
    要怎么做这一节包含了完成方法所需的步骤。
    工作原理这一节通常包含了前一节中每一步的具体解释。
    更多细节这一节包含了关于所用方法的额外信息,以便让读者获得一个更加全面的认识。
    参考内容这一节提供了其他有用信息的链接。
    本书约定在本书中,你会发现我们使用不同类型的字体来区分不同类型的信息。下面有一些例子和解释。
    文字形式的代码、数据库表名、文件夹名、文件名、文件扩展名、路径名、URL、用户输入和Twitter账户展示如下:
    “函数 read.csv()从.csv文件的数据中创建了一个数据框。”
    代码块写成如下形式:
    命名行的输入和输出写成如下格式:
    小提示和小技巧出现在这里。
    本书相关资源下载下载代码范例和数据本书提供代码范例和数据下载,读者可登录华章网站(www.hzbook.com)关于本书的页面获取相关资源。
    关于本书中用到的数据我们已经生成了本书中用到的很多数据文件。我们也使用了一些公开可获取的数据集。下表列出了这些公开的数据集。大部分公开数据集来自于加州大学欧文分校的机器学习库http://archive.ics.uci.edu/ml/。表中我们用“下载自 UCI-MLR”来标志这些数据集。
    数据文件名 来  源auto-mpg.csv Quinlan, R. Combining Instance-Based and Model-Based Learning, Machine Learning Proceedings on the Tenth International Conference 1993, 236-243, held at University of Massachusetts, Amherst published by Morgan Kaufmann.(下载自 UCI-MLR)BostonHousing. csv D. Harrison and D.L. Rubinfeld, Hedonic prices and the demand for clean air, Journal for Environmental Economics a Management, pages 81–102, 1978. (下载自 UCI-MLR)daily-bike- rentals.csv Fanaee-T, Hadi, and Gama, Joao, Event labeling combining ensemble detectors and background knowledge, Progress in Artificial Intelligence (2013): pp. 1-15, Springer Berlin Heidelberg. (下载自 UCI-MLR)banknote- authentication. csv  数据库来源: Volker Lohweg, University of AppliedSciences, Ostwestfalen-Lippe数据库捐赠: Helene Darksen, University of AppliedSciences, Ostwestfalen-Lippe(下载自 UCI-MLR)education.csv Robust Regression and Outlier Detection, P. J. Rouseeuw and A. M. Leroy, Wiley, 1987.(下载自 UCI-MLR)walmart.csvwalmart- monthly.csv 下载自 Yahoo!金融prices.csv 下载自美国劳工统计局infy.csv, infy- monthly.csv 下载自 Yahoo!金融nj-wages.csv 下载自新泽西州教育部网站以及http://federalgovernmentzipcodes.us.nj-county-data. csv 改编自维基百科:
    http://en.wikipedia.org/wiki/List_of_counties_in_New_Jersey下载本书中的彩色图片我们为你提供了本书中用到的截图和图表的彩色PDF文件。这些彩图有助于你更好的理解输出中的变化。可以从https://www.packtpub.com/sites/default/files/ downloads/9065OS_ ColorImages.pdf下载这个文件,也可以登录华章网站获取相关内容。

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网