您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
联系客服
|
搜索
热搜:
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
R语言
字数: 319千字
装帧: 平装
出版社: 清华大学出版社
作者: 刘鹏、张燕、程显毅、刘颖、 朱倩
出版日期: 2019-01-01
商品条码: 9787302494324
版次: 1
开本: 其他
页数: 319
出版年份: 2019
定价:
¥59.8
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
收藏
上架到店铺
×
Close
上架到店铺
{{shop.name}}
点此去绑定店铺
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥22.05
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
内容简介
近年来,R语言可谓是数据分析的热门语言,相关的资料五花八门,让读者难以抉择。本书力求用简洁、精练,以理论与实践相结合的方式让大家快速掌握R语言。 全书共14章,章为绪论,从数学、统计学和逻辑学3个方面探讨了树立正确数据思维的一些原则;其余各章分为基础篇(第2~10章)、应用篇(1、12章)和进阶篇(3、14章)。基础篇按照数据分析过程,主要讨论了R的数据结构、数据导入/导出、数据清洗、数据变换、可视化、不错语言编程和常用建模方法。应用篇通过对2个经典案例的分析,使读者能够把学到的R基础知识应用到解决实际问题,把数据变成价值。进阶篇解决如何用R处理大数据的一些技术。 本书可用作培养应用型人才的课程教材,也可作为数据分析爱好者的参考资料。
作者简介
刘鹏,教授,清华大学博士毕业,现任中国信息协会大数据分会副会长、南京大数据研究院院长、中国大数据应用联盟人工智能专家委员会主任、中国大数据专家委员会委员。曾率队夺得2002 PennySort靠前计算机排序比赛优选(这是我国获得的靠前个大数据比赛世界优选),两次夺得全国高校科技比赛优选奖,三次夺得清华大学科技比赛优选奖。主持完成科研项目25项,发表论文80余篇,出版专业图书20部。获部级科技进步二等奖4项、三等奖4项。2002年开创性提出“计算池”模式,被2007年开始流行的“云计算”所证实。2003年开创性提出“反垃圾邮件网格”,被2008年开始流行的“云安全”所证实。荣获“全军十大学习成才标兵”(排名靠前)、南京“十大杰出青年”、江苏省中青年科学技术带头人、清华大学“学术新秀”等称号。
目录
章 绪论 1.1 为什么学习R语言 1 1.1.1 R是什么 1 1.1.2 R语言主要优势 2 1.2 正确的数据思维观 4 1.2.1 数学思维 5 1.2.2 统计思维 5 1.2.3 逻辑思维 10 习题 12 基础篇 第2章 R语言入门 2.1 新手上路 17 2.1.1 两个例子 17 2.1.2 R是什么 19 2.2 R语言开发环境部署 19 2.2.1 安装R 19 2.2.2 安装RStudio 20 2.3 获取帮助 22 2.3.1 文档和搜索 22 2.3.2 演示 22 2.3.3 帮助函数 23 2.4 工作空间 23 2.5 脚本 24 2.6 R包 25 习题 25 第3章 数据类型 3.1 变量与常量 27 3.1.1 变量 27 3.1.2 常量 28 3.2 结构类型 28 3.2.1 向量 29 3.2.2 矩阵 31 3.2.3 数组 33 3.2.4 数据框 35 3.2.5 因子 36 3.2.6 列表 37 3.3 字符串操作 38 3.3.1 基本操作 38 3.3.2 字符串处理stringr包 39 3.4 用于数据处理和转换的常用函数 40 习题 41 第4章 数据准备 4.1 数据导入 43 4.1.1 键盘输入数据 44 4.1.2 导入文本文件 45 4.1.3 导入Excel数据 46 4.1.4 导入数据库文件 47 4.2 数据导出 48 4.2.1 导出文本文件 48 4.2.2 保存图片 49 习题 49 第5章 数据可视化 5.1 低水平绘图命令 51 5.1.1 点 51 5.1.2 线 54 5.1.3 面 56 5.2 高水平绘图命令 59 5.2.1 认识ggplot2 59 5.2.2 几何对象 59 5.2.3 映射 60 5.2.4 统计对象 62 5.2.5 标度 63 5.2.6 分面 65 5.2.7 其他修饰 67 5.3 交互式绘图命令 69 5.3.1 rCharts包 69 5.3.2 plotly包 70 5.3.3 shiny 72 习题 80 第6章 数据探索 6.1 缺失值分析 82 6.1.1 与缺失值相关的几个概念 82 6.1.2 缺失值检测 83 6.2 异常值分析 84 6.2.1 箱线图检验离群点 85 6.2.2 散点图检测离群点 86 6.2.3 LOF方法检测异常值 87 6.2.4 聚类方法检测异常值 87 6.3 不一致值分析 88 6.4 数据的统计特征分析 88 6.4.1 分布分析 88 6.4.2 对比分析 90 6.4.3 统计量分析 91 6.4.4 周期性分析 93 6.4.5 相关性分析 94 习题 97 第7章 数据变换 7.1 数据清洗 100 7.1.1 缺失数据处理 100 7.1.2 数据去重 101 7.1.3 规范化 102 7.2 数据选择 103 7.2.1 删除有75%以上相同数值的自变量 103 7.2.2 删除高相关性的自变量 104 7.2.3 重要变量的选择 105 7.2.4 数据集选择 106 7.2.5 主成分分析 106 7.2.6 因子分析 108 7.3 数据集成 109 7.3.1 通过向量化重构数据 109 7.3.2 为数据添加新变量 110 7.3.3 数据透视表 112 7.3.4 频度 117 7.3.5 数据整合 118 7.3.6 分组汇总 121 习题 124 第8章 高级编程 8.1 控制结构 126 8.1.1 选择结构程序设计 126 8.1.2 循环结构程序设计 127 8.2 用户自定义函数 128 习题 129 第9章 数据建模 9.1 Rattle包 132 9.2 聚类模型 139 9.2.1 背景 139 9.2.2 K-Means聚类 139 9.2.3 Ewkm聚类 142 9.2.4 层次聚类(Hierachical) 144 9.2.5 双向聚类(BiCluster) 146 9.3 关联分析模型 147 9.3.1 背景 147 9.3.2 基本术语 148 9.3.3 关联规则的分类 149 9.3.4 Apriori算法 150 9.3.5 实验指导 151 9.4 传统决策树模型 153 9.4.1 背景 153 9.4.2 ID3算法 155 9.4.3 C4.5算法 156 9.4.4 实验指导 156 9.5 随机森林决策树模型 159 9.5.1 背景 159 9.5.2 随机森林算法 159 9.5.3 实验指导 161 9.6 自适应选择决策树模型 164 9.6.1 背景 164 9.6.2 Boosting算法 164 9.6.3 adaboost算法 165 9.6.4 实验指导 165 9.7 SVM 169 9.7.1 背景 169 9.7.2 SVM算法 169 9.7.3 实验指导 172 9.8 线性回归模型 173 9.8.1 背景 173 9.8.2 一元线性回归方法 173 9.8.3 实验指导 175 9.9 神经网络模型 175 9.9.1 背景 175 9.9.2 人工神经网络模型 176 9.9.3 实验指导 179 习题 181 0章 模型评估 10.1 数据集 185 10.2 混淆矩阵 186 10.2.1 二分类混淆矩阵 186 10.2.2 模型评价指标 187 10.2.3 多分类混淆矩阵 188 10.3 风险图 188 10.3.1 风险图的作用 188 10.3.2 实验指导 189 10.4 ROC曲线 191 10.4.1 什么是ROC曲线 191 10.4.2 ROC曲线作用 191 10.4.3 实验指导 191 习题 193 应用篇 1章 影响大学平均录取分数线因素分析 11.1 背景与目标 197 11.2 数据说明 197 11.3 描述性分析 200 11.4 总结与建议 203 2章 收视率分析 12.1 背景介绍 204 12.2 数据说明 204 12.3 描述性分析 205 12.4 总结与建议 211 进阶篇 3章 RHadoop 13.1 认识RHadoop 215 13.1.1 为什么要让Hadoop结合R语言 215 13.1.2 Mahout与R在做数据挖掘的区别 216 13.2 RHadoop安装 216 13.2.1 依赖包安装 216 13.2.2 RHadoop的特点 219 13.3 综合练习 220 习题 225 4章 SparkR 14.1 认识SparkR 228 14.1.1 安装SparkR 228 14.1.2 在R或Rstudio中调用SparkR 228 14.2 SparkDataFrame 229 14.3 SparkR支持的机器学习算法 230 14.4 综合练习 230 14.4.1 加载数据 230 14.4.2 SparkDataFrame基本操作 231 14.4.3 从Spark上运行SQL查询 233 14.4.4 SparkR操作hdfs上的文件 233 14.4.5 通过SparkR操作spark-sql以hive的表为对象 234 习题 234 参考文献 附录 大数据和人工智能实验环境
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网