您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
R数据挖掘实战
字数: 392000
装帧: 平装
出版社: 人民邮电出版社
作者: (意)安德烈亚·奇里洛
出版日期: 2024-05-01
商品条码: 9787115616456
版次: 1
开本: 16开
页数: 324
出版年份: 2024
定价:
¥99.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
通过本书的学习,读者能够: ·掌握数据挖掘的相关软件包,如dplyr、ggplot2等。 ·学会如何通过数据挖掘标准流程(CRISP-DM)来有效地组织数据挖掘项目。 ·对数据执行数据清理和数据验证操作—为数据挖掘活动准备数据。 ·以数值方式和图形方式分别执行探索性数据分析。 ·开发简单线性回归模型、多元线性回归模型以及逻辑回归模型。 ·应用基本的集成学习技术整合不同数据挖掘模型的结果。 ·对非结构化的PDF文件和文本数据执行文本挖掘及分析。 ·编制有效传达数据分析目标、方法和洞察的报告。
内容简介
作为通用的数据挖掘和统计分析工具,R语言被广泛应用于各大领域,包括金融、医药、科学研究等。通过阅读本书内容,读者可创建和展示令人印象深刻的数据分析。
本书通过沉浸式体验一个虚拟的数据挖掘刑事案例,让读者借助基础和优选的数据挖掘技术来解决这个影响商业公司运营的欺诈案件,从而让读者掌握这些强大的技能。
通过本书,读者将高效地学习针对数据挖掘任务通常采用的各种R语言软件包,并将其应用于现实数据中。此外,读者还将了解如何应用各种数据挖掘模型和算法(从基础的多元线性回归到最优选的支持向量机),以及这些模型背后的原理。
完成本书的学习,读者将能够解决数据挖掘相关的实际问题,并优选化利用好自己的数据。
作者简介
[意]安德烈亚·奇里洛(Andrea Cirillo):目前就职于意大利联合圣保罗银行(Intesa Sanpaolo Banking Group),担任审计量化分析师一职。在此之前,他曾在德勤会计师事务所(Deloitte Touche Tohmatsu)从事财务和外部审计相关工作,以及在 FNM(一家意大利上市公司)从事内部审计相关工作。他目前的主要工作职责涉及信用风险管理模型的评估及改进—主要围绕巴塞尔协议Ⅲ这一领域。他与弗朗西丝卡(Francesca)结婚,并共同养育四个子女,他们的名字名别是:托马索(Tommaso)、吉安娜(Gianna)、扎卡里亚(Zaccaria)和菲利波(Filippo)。安德里亚(Andrea)曾编写并供稿一些有用的 R语言软件包,包括 updateR、ramazon 和 paletteR,此外,他会定期地分享一些关于 R 语言编程的深刻见解和教程。他的研究工作主要聚焦于通过建模定制算法以及开发交互式应用程序,实现 R 语言在风险管理和欺诈检测领域中的应用。
目录
第1章为何选择R语言1
1.1什么是R语言1
1.2R语言的发展历史2
1.3R语言的优势2
1.3.1开源3
1.3.2插件就绪3
1.3.3数据可视化友好4
1.4安装R语言、编写R语言代码5
1.4.1下载R语言软件包5
1.4.2应用于Windows平台和MacOS平台的R语言软件包5
1.4.3应用于Linux平台的R语言软件包6
1.4.4基础版本R语言包安装的主要组件6
1.4.5编写R语言及运行R语言代码的替代平台8
1.5R语言的基本概念11
1.5.1R语言初级入门11
1.5.2向量(Vector)14
1.5.3列表(Lists)15
1.5.4数据帧(Dataframes)17
1.5.5函数(Functions)18
1.6R语言的劣势以及如何克服这些劣势20
1.6.1高效学习R语言,最小化精力投入21
1.6.2通过R语言操作大型数据集24
1.7更多参考25
1.8小结25
第2章数据挖掘入门-读者银行账户数据分析26
2.1获取并准备银行数据26
2.1.1数据模型27
2.2使用数据透视表汇总数据27
2.2.1管道操作符简介29
2.2.2dplyr程序包简介30
2.2.3安装必要程序包并将个人数据加载到R语言环境中31
2.2.4确定每月和每天的费用总额32
2.4使用ggplot2程序包对数据进行可视化处理36
2.4.1数据可视化基本原理36
2.4.2使用ggplot程序包来进行数据可视化42
2.5更多参考47
2.6小结47
第3章数据挖掘进阶-数据挖掘标准流程(CRISP-DM)方法论49
3.1数据挖掘标准流程(CRISP-DM)方法论之数据挖掘周期50
3.2业务理解51
3.3数据理解51
3.3.1数据收集52
3.3.2数据描述52
3.3.3数据探索53
3.4数据准备57
3.5建模57
3.5.1定义数据建模策略58
3.6评估59
3.6.1聚类评估59
3.6.2分类评估60
3.6.3回归评估60
3.6.4如何判断模型性能的充分性61
3.7部署62
3.7.1部署计划开发62
3.7.2维护计划开发63
3.8小结64
第4章保持室内整洁-数据挖掘架构65
4.1概述65
4.2数据源67
4.2.1数据源类型68
4.3数据库和数据仓库69
4.3.1中间层-数据集市70
4.3.2单层架构的数据仓库70
4.3.3双层架构的数据仓库71
4.3.4三层架构的数据仓库71
4.3.5实际应用的技术72
4.4数据挖掘引擎73
4.4.1解释器74
4.4.2引擎和数据仓库之间的接口74
4.4.3数据挖掘算法74
4.5用户界面75
4.5.1清晰性原则76
4.6如何使用R语言来创建数据挖掘架构79
4.6.1数据源79
4.6.2数据仓库80
4.6.3数据挖掘引擎80
4.6.4用户界面81
4.7更多参考82
4.8小结82
第5章如何解决数据挖掘问题-数据清洗和验证83
5.1安静祥和的一天83
5.2数据清洗85
5.2.1Tidydata框架85
5.2.2分析数据的结构87
5.2.3数据整理93
5.2.4验证数据99
5.2.5数据合并109
5.3更多参考111
5.4小结111
第6章观察数据-探索性数据分析113
6.1汇总EDA介绍113
6.1.1描述总体分布114
6.1.2测定变量之间的相关性124
6.2图形化EDA130
6.2.1变量分布可视化131
6.2.2变量关系可视化136
6.2.3更多参考141
6.3小结141
第7章最初的猜想-线性回归142
7.1定义数据建模策略143
7.1.1数据建模相关概念146
7.2应用线性回归148
7.2.1线性回归的直观解释149
7.2.2线性回归的数学原理150
7.2.3如何在R语言中使用线性回归152
7.3更多参考161
7.4小结161
第8章浅谈模型性能评估163
8.1定义模型性能163
8.1.1模型的拟合度与模型的可解释性164
8.1.2使用模型进行预测165
8.2测量回归模型的性能167
8.2.1均方误差167
8.2.2R平方172
8.3衡量分类问题模型的性能177
8.3.1混淆矩阵178
8.3.2准确度180
8.3.3灵敏度182
8.3.4特异性182
8.3.5如何选择合适的性能统计指标183
8.4区分训练数据集与测试数据集184
8.5更多参考185
8.6小结185
第9章不要放弃-继续学习包括多元变量的回归187
9.1从简单线性回归到多元线性回归188
9.1.1符号188
9.1.2假设188
9.2降维191
9.2.1逐步回归192
9.2.2主成分回归196
9.3使用R语言拟合多元线性模型197
9.3.1模型拟合197
9.3.2变量的假设验证200
9.3.3残差假设验证201
9.3.4降维202
9.4更多参考208
9.5小结208
第10章关于分类模型问题的不同展望209
10.1分类模型是什么?读者为什么需要分类模型209
10.1.1线性回归应用于分类变量的局限性210
10.1.2常用的分类算法和模型211
10.2逻辑回归213
10.2.1逻辑回归的原理213
10.2.2逻辑回归的数学原理215
10.2.3如何在R中应用逻辑回归218
10.2.4逻辑回归结果的可视化与解释224
10.3支持向量机(SVM)228
10.3.1支持向量机的原支理229
10.3.2在原R语言中应用支持向量机234
10.3.3理解支持向量机的结果235
10.4更多参考238
10.5小结238
第11章最后冲刺-随机森林和集成学习239
11.1随机森林239
11.1.1随机森林的构建模块-决策树简介240
11.1.2随机森林的原理243
11.1.3在R语言中应用随机森林243
11.1.4评估模型的结果244
11.2集成学习249
11.2.1基础的集成学习技术250
11.2.2采用R语言对数据进行集成学习250
11.3在新数据上应用估计模型256
11.3.1将predict.glm()函数用于逻辑模型的预测257
11.3.2将predict.randomforest()用于随机森林的预测258
11.3.3将predict.svm()函数应用于支持向量机的预测258
11.4结构化更加良好的预测分析方法258
11.5对预测数据应用集成学习中的多数投票技术259
11.6更多参考260
11.7小结260
第12章寻找罪魁祸首-用R语言执行文本数据挖掘262
12.1提取PDF文件中的数据262
12.1.1获取文档列表263
12.1.2通过pdf_text()函数将PDF文件读取到R语言环境264
12.1.3使用for循环迭代提取文本266
12.2文本情感分析269
12.3开发词云272
12.4N元组模型(n-grams)分析274
12.5网络分析275
12.5.1从数据帧中获取边列表279
12.5.2使用ggraph程序包可视化网络279
12.6更多参考283
12.7小结283
第13章借助RMarkdown与股东分享公司现状284
13.1富有说服力的数据挖掘报告之原则284
13.1.1清晰阐明目标284
13.1.2明确陈述假设285
13.1.3数据处理过程清晰明了285
13.1.4数据一致性286
13.1.5提供数据谱系286
13.2编制RMarkDown报告287
13.3在RStudio中编制RMarkdown报告文档288
13.3.1Markdown简介288
13.3.2插入代码块289
13.3.3通过内联R语言代码,在文本中重现代码的输出292
13.3.4Shiny简介以及reactivity框架293
13.3.5添加交互式数据族谱模块297
13.4渲染和分享RMarkdown报告301
13.4.1渲染RMarkdown报告301
13.4.2分享RMarkdown报告301
13.5更多参考304
13.6小结304
第14章结语306
附录A处理日期、相对路径和函数309
A.1使用R语言处理日期309
A.2R语言中的工作目录和相对路径309
A.3条件声明310
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网