您好,欢迎来到聚文网。 登录 免费注册
数据分析与预测算法:基于R语言

数据分析与预测算法:基于R语言

  • 字数: 851
  • 出版社: 机械工业
  • 作者: [美]拉斐尔·A. 伊里萨里(Rafael A.Irizarry)
  • 商品条码: 9787111746782
  • 版次: 1
  • 开本: 16开
  • 页数: 576
  • 出版年份: 2024
  • 印次: 1
定价:¥199 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
本书介绍可以帮助读者处理真实数据分析挑战的概念和技能。它涵盖了概率论、统计推断、线性回归和机器学习等概念。它还帮助读者提升如下技能:R编程、数据清洗、数据可视化、预测算法构建、使用UNIX/Linux shell组织文件、使用Git和GitHub进行版本控制以及可复制的文档准备。全书分为六个部分,分别为R、数据可视化、统计与R、数据清洗、机器学习和生产力工具。
作者简介
拉斐尔·A·伊里萨里(Rafael A. Irizarry)是达纳-法伯癌症研究所(Dana-Farber Cancer Institute)的数据科学教授、哈佛大学(Harvard)生物统计学教授、美国统计协会(American Statistical Association)会员。伊里萨里博士是一名应用统计学家,在过去的20年里,他在不同的领域工作,包括基因组学、声音工程和公共卫生。他将数据分析的解决方案作为开源软件发布,这些工具被广泛下载和使用。伊里萨里教授还在哈佛大学开发并教授了几门数据科学课程,以及一些受欢迎的在线课程。
目录
目  录  Contents<br />前言<br />致谢<br />第1章 R和RStudio入门1<br />1.1 为什么是R1<br />1.2 R控制台2<br />1.3 脚本2<br />1.4 RStudio3<br />1.4.1 窗格3<br />1.4.2 按键绑定4<br />1.4.3 编辑脚本时运行命令5<br />1.4.4 更改全局选项7<br />1.5 安装R包8<br />第一部分 R语言<br />第2章 R基础知识10<br />2.1 案例研究:美国枪杀人数10<br />2.2 非常基础的知识11<br />2.2.1 对象11<br />2.2.2 工作区12<br /><br /><br /><br />2.2.3 函数13<br />2.2.4 其他预构建对象14<br />2.2.5 变量名15<br />2.2.6 保存工作区15<br />2.2.7 启发性脚本15<br />2.2.8 注释代码16<br />2.3 练习16<br />2.4 数据类型17<br />2.4.1 数据帧17<br />2.4.2 检查对象17<br />2.4.3 访问器:$18<br />2.4.4 向量:数值型、字符型和<br />逻辑型18<br />2.4.5 因子19<br />2.4.6 列表20<br />2.4.7 矩阵21<br />2.5 练习22<br />2.6 向量23<br />2.6.1 创建向量23<br />2.6.2 命名24<br />2.6.3 序列24<br />2.6.4 子集25<br />2.7 强制转换25<br />2.8 练习26<br />2.9 排序27<br />2.9.1 sort27<br />2.9.2 order27<br />2.9.3 max和which.max28<br />2.9.4 rank29<br />2.9.5 注意循环使用29<br />2.10 练习29<br />2.11 向量运算30<br />2.11.1 重新缩放向量31<br />2.11.2 两个向量31<br />2.12 练习32<br />2.13 索引32<br />2.13.1 逻辑子集32<br />2.13.2 逻辑运算符33<br />2.13.3 which33<br />2.13.4 match33<br />2.13.5 %in%34<br />2.14 练习34<br />2.15 基本图35<br />2.15.1 plot 35<br />2.15.2 hist35<br />2.15.3 boxplot36<br />2.15.4 image36<br />2.16 练习36<br />第3章 编程基础38<br />3.1 条件表达式38<br />3.2 函数40<br />3.3 命名空间41<br />3.4 for循环42<br />3.5 向量化和泛函43<br />3.6 练习43<br />第4章 tidyverse45<br />4.1 tidy数据45<br />4.2 练习46<br />4.3 操作数据帧47<br />4.3.1 使用mutate添加列47<br />4.3.2 使用filter构造子集48<br />4.3.3 使用select选择列 48<br />4.4 练习48<br />4.5 管道:%>%50<br />4.6 练习51<br />4.7 汇总数据51<br />4.7.1 summarize52<br />4.7.2 pull53<br />4.7.3 group_by54<br />4.8 数据帧排序55<br />4.8.1 嵌套排序55<br />4.8.2 top_n56<br />4.9 练习56<br />4.10 tibble57<br />4.10.1 tibble展示效果更好58<br />4.10.2 tibble的子集仍是tibble58<br />4.10.3 tibble可以有复杂的条目59<br />4.10.4 tibble可以分组59<br />4.10.5 使用tibble代替data.frame59<br />4.11 点运算符60<br />4.12 do60<br />4.13 purrr包62<br />4.14 tidyverse条件63<br />4.14.1 case_when63<br />4.14.2 between63<br />4.15 练习64<br />第5章 导入数据65<br />5.1 路径和工作目录66<br />5.1.1 文件系统66<br />5.1.2 相对路径和完整路径67<br />5.1.3 工作目录67<br />5.1.4 生成路径名67<br />5.1.5 使用路径复制文件68<br />5.2 readr和readxl包68<br />5.2.1 readr68<br />5.2.2 readxl69<br />5.3 练习70<br />5.4 下载文件70<br />5.5 R-base导入函数71<br />5.6 文本与二进制文件72<br />5.7 Unicode与ASCII72<br />5.8 用电子表格组织数据73<br />5.9 练习74<br />第二部分 数据可视化<br />第6章 数据可视化导论76<br />第7章 ggplot280<br />7.1 图的组件81<br />7.2 ggplot对象82<br />7.3 几何图形82<br />7.4 美学映射83<br />7.5 图层集合84<br />7.6 全局与局部美学映射85<br />7.7 尺度86<br />7.8 标签和标题86<br />7.9 类别的颜色87<br />7.10 注释、形状和调整88<br />7.11 附加组件包89<br />7.12 综合90<br />7.13 用qplot快速绘图91<br />7.14 绘图网格91<br />7.15 练习92<br />第8章 可视化数据分布94<br />8.1 变量类型94<br />8.2 案例研究:描述学生的身高95<br />8.3 分布函数95<br />8.4 累积分布函数96<br />8.5 直方图97<br />8.6 平滑密度图97<br />8.6.1 解读y轴100<br />8.6.2 密度容许分层100<br />8.7 练习101<br />8.8 正态分布103<br />8.9 标准单位104<br />8.10 分位数图105<br />8.11 百分位数106<br />8.12 箱线图107<br />8.13 分层法108<br />8.14 案例研究:描述学生的<br />身高(续)108<br />8.15 练习109<br />8.16 ggplot2几何图形111<br />8.16.1 条形图111<br />8.16.2 直方图112<br />8.16.3 密度图113<br />8.16.4 箱线图113<br />8.16.5 QQ图114<br />8.16.6 图像114<br />8.16.7 快速绘图115<br />8.17 练习116<br />第9章 实践中的数据可视化118<br />9.1 案例研究:对贫困的新见解118<br />9.2 散点图120<br />9.3 分面121<br />9.3.1 facet_wrap 123<br />9.3.2 采用固定尺度以更好地<br />进行比较123<br />9.4 时间序列图124<br />9.5 数据转换127<br />9.5.1 对数转换127<br />9.5.2 使用哪一个底数128<br />9.5.3 转换值还是标记尺度129<br >9.6 可视化多峰分布130<br />9.7 用箱线图和脊线图比较多种分布130<br />9.7.1 箱线图131<br />9.7.2 脊线图132<br />9.7.3 示例:1970年和2010年的<br />收入分布134<br />9.7.4 访问计算变量139<br />9.7.5 加权密度142<br />9.8 生态谬误和显示数据的重要性143<br />9.8.1 逻辑转换143<br />9.8.2 显示数据144<br />第10章 数据可视化原则145<br />10.1 使用视觉线索编码数据145<br />10.2 知道什么时候包含0148<br />10.3 不要扭曲数量150<br />10.4 按有意义的值对类别排序150<br />10.5 显示数据152<br />10.6 简单的比较153<br />10.6.1 使用公共的轴153<br />10.6.2 垂直对齐图可以看到<br />水平变化,水平对齐图<br />可以看到垂直变化154<br />10.6.3 考虑数据转换155<br />10.6.4 比较相邻视觉线索157<br />10.6.5 使用颜色157<br />10.7 考虑色盲158<br />10.8 两个变量的图158<br />10.8.1 斜率图158<br />10.8.2 Bland-Altman图159<br />10.9 编码第三个变量160<br />10.10 避免拟三维图161<br />10.11 避免使用过多有效数字162<br />10.12 了解你的读者163<br />10.13 练习164<br />10.14 案例研究:疫苗和传染病167<br />10.15 练习170<br />第11章 鲁棒的汇总171<br />11.1 离群值171<br />11.2 中值172<br />11.3 四分位距172<br />11.4 Tukey对离群值的定义173<br />11.5 绝对中位差173<br />11.6 练习174<br />11.7 案例研究:学生报告的身高175<br />第三部分 R语言统计学<br />第12章 R语言统计学导论178<br />第13章 概率179<br />13.1 离散概率179<br />13.1.1 相对频率179<br />13.1.2 符号180<br />13.1.3 概率分布180<br />13.2 分类数据的蒙特卡罗模拟180<br />13.2.1 设置随机种子181<br />13.2.2 有无放回182<br />13.3 独立性182<br />13.4 条件概率183<br />13.5 加法和乘法法则183<br />13.5.1 乘法法则183<br />13.5.2 独立条件下的乘法法则184<br />13.5.3 加法法则184<br />13.6 排列组合184<br />13.7 示例188<br />13.7.1 蒙提·霍尔问题188<br />13.7.2 生日问题189<br />13.8 无限实验191<br />13.9 练习191<br />13.10 连续概率193<br />13.11 理论连续分布194<br />13.11.1 近似理论分布194<br />13.11.2 概率密度195<br />13.12 连续变量的蒙特卡罗模拟196<br />13.13 连续分布197<br />13.14 练习197<br />第14章 随机变量199<br />14.1 生成随机变量199<br />14.2 抽样模型200<br />14.3 随机变量的概率分布201<br />14.4 分布与概率分布202<br />14.5 随机变量符号203<br />14.6 期望值和标准误差203<br />14.7 中心极限定理205<br />14.8 平均值统计特性206<br />14.9 大数定律208<br />14.10 练习208<br />14.11 案例研究:大空头209<br />14.11.1 利率解释与机会模型209<br />14.11.2 大空头212<br />14.12 练习215<br />第15章 统计推断216<br />15.1 民意调查216<br />15.2 总体、样本、参数和估计218<br />15.2.1 样本平均值219<br />15.2.2 参数220<br />15.2.3 民意调查与预测220<br />15.2.4 估计值的性质:期望值和<br />标准误差220<br />15.3 练习221<br />15.4 实践中的中心极限定理222<br />15.4.1 蒙特卡罗模拟224<br />15.4.2 差值225<br />15.4.3 偏差:为什么不进行一次<br />大规模的民意调查呢225<br />15.5 练习226<br />15.6 置信区间227<br />15.6.1 蒙特卡罗模拟229<br />15.6.2 正确的语言230<br />15.7 练习231<br />15.8 幂232<br />15.9 p值232<br />15.10 联合检验233<br />15.10.1 女士品茶234<br />15.10.2 二乘二表234<br />15.10.3 卡方检验235<br />15.10.4 比值比236<br />15.10.5 比值比的置信区间237<br />15.10.6 小计数校正237<br />15.10.7 样本大,p值小238<br />15.11 练习238<br />第16章 统计模型239<br />16.1 民意调查聚合器240<br />16.1.1 民意调查数据242<br />16.1.2 民意调查机构偏差243<br />16.2 数据驱动模型244<br />16.3 练习245<br />16.4 贝叶斯统计248<br />16.5 贝叶斯定理模拟249<br />16.6 层次模型251<br />16.7 练习253<br />16.8 案例研究:选举预测255<br />16.8.1 贝叶斯方法255<br />16.8.2 一般偏差256<br />16.8.3 模型的数学表示256<br />16.8.4 预测选举团259<br />16.8.5 预测263<br />16.9 练习264<br />16.10 t分布266<br />第17章 回归268<br />17.1 案例研究:身高是遗传的吗268<br />17.2 相关系数269<br />17.2.1 样本相关系数是一个<br />随机变量271<br />17.2.2 相关系数并不总是有用272<br />17.3 条件期望272<br />17.4 回归线274<br />17.4.1 回归提高精度275<br />17.4.2 二元正态分布(高级)276<br />17.4.3 可释方差278<br />17.4.4 警告:有两条回归线278<br />17.5 练习279<br />第18章 线性模型280<br />18.1 案例研究:《点球成金》280<br />18.1.1 棒球统计学281<br />18.1.2 棒球基础知识282<br />18.1.3 投球上垒无奖283<br />18.1.4 投球上垒还是盗垒284<br />18.1.5 应用于棒球统计的回归285<br />18.2 混杂因素287<br />18.2.1 通过分层理解混杂因素288<br />18.2.2 多元回归291<br />18.3 最小二乘估计291<br />18.3.1 解释线性模型292<br />18.3.2 最小二乘估计292<br />18.3.3 lm函数293<br />18.3.4 LSE是随机变量294<br />18.3.5 预测值是随机变量295<br />18.4 练习296<br />18.5 tidyverse中的线性回归297<br />18.6 练习301<br />18.7 案例研究:《点球成金》(续)302<br />18.7.1 添加薪水和位置信息304<br />18.7.2 选择9名球员306<br />18.8 回归谬论307<br />18.9 测量误差模型308<br />18.10 练习310<br />第19章 关联关系并非因果关系312<br />19.1 伪相关312<br />19.2 离群值314<br />19.3 颠倒因果315<br />19.4 混杂因素316<br />19.4.1 示例:加州大学伯克利分校的<br />招生316<br />19.4.2 混杂解释图形317<br />19.4.3 分层后的平均值318<br />19.5 辛普森悖论319<br />19.6 练习319<br />第四部分 数据整理<br />第20章 数据整理导论322<br />第21章 重塑数据323<br />21.1 gather函数323<br />21.2 spread函数324<br />21.3 separate函数325<br />21.4 unite函数327<br />21.5 练习328<br />第22章 连接表330<br />22.1 连接331<br />22.1.1 左连接332<br />22.1.2 右连接332<br />22.1.3 内部连接333<br />22.1.4 全连接333<br />22.1.5 半连接333<br />22.1.6 反连接333<br />22.2 绑定334<br />22.2.1 按列绑定334<br />22.2.2 按行绑定335<br />22.3 集合运算符335<br />22.3.1 intersect函数335<br />22.3.2 union函数335<br />22.3.3 setdiff函数336<br />22.3.4 setequal函数336<br />22.4 练习337<br />第23章 网页抓取338<br />23.1 HTML339<br />23.2 rvest包340<br />23.3 CSS选择器342<br />23.4 JSON342<br />23.5 练习344<br />第24章 字符串处理346<br />24.1 stringr包347<br />24.2 案例研究:美国枪杀数据348<br />24.3 案例研究:学生报告的身高349<br />24.4 定义字符串时如何转义351<br />24.5 正则表达式353<br />24.5.1 字符串是正则表达式353<br />24.5.2 特殊字符353<br />24.5.3 字符类354<br />24.5.4 锚点355<br />24.5.5 量词356<br />24.5.6 空格357<br />24.5.7 量词*、?和+357<br />24.5.8 非检测元素358<br />24.5.9 组358<br />24.6 使用正则表达式搜索并替换359<br />24.7 测试和改进361<br />24.8 修剪364<br />24.9 更改字母大小写364<br />24.10 案例研究:学生报告的<br />身高(续)365<br />24.10.1 extract函数365<br />24.10.2 整合366<br />24.11 字符串拆分367<br />24.12 案例研究:从PDF中提取表369<br />24.13 重新编码372<br />24.14 练习373<br />第25章 解析日期和时间376<br />25.1 日期数据类型376<br />25.2 lubridate包377<br />25.3 练习380<br />第26章 文本挖掘381<br />26.1 案例研究:特朗普推文381<br />26.2 文本作为数据383<br />26.3 情感分析388<br />26.4 练习392<br />第五部分 机器学习<br />第27章 机器学习导论394<br />27.1 概念394<br />27.2 示例396<br />27.3 练习397<br />27.4 评价标准397<br />27.4.1 训练集和测试集398<br />27.4.2 总体准确度398<br />27.4.3 混淆矩阵400<br />27.4.4 灵敏度和特异性401<br />27.4.5 平衡准确度和评分402<br />27.4.6 类别主导优势在实践中的<br />重要性404<br />27.4.7 ROC和精度-召回率曲线404<br />27.4.8 损失函数406<br />27.5 练习407<br />27.6 条件概率和期望407<br />27.6.1 条件概率408<br />27.6.2 条件期望409<br />27.6.3 条件期望使平方损失<br />函数最小409<br />27.7 练习410<br />27.8 案例研究:是2还是7410<br />第28章 平滑化413<br />28.1 箱平滑化414<br />28.2 核函数416<br />28.3 局部加权回归418<br />28.3.1 抛物线拟合421<br />28.3.2 注意默认平滑化参数422<br />28.4 平滑化和机器学习的联系423<br />28.5 练习423<br />第29章 交叉验证425<br />29.1 k最近邻法的动机425<br />29.1.1 过度训练427<br />29.1.2 过度平滑化428<br />29.1.3 挑选kNN中的k429<br />29.2 交叉验证的数学描述430<br />29.3 K折交叉验证431<br />29.4 练习433<br />29.5 自举法434<br />29.6 练习436<br />第30章 caret包438<br />30.1 caret的train函数438<br />30.2 执行交叉验证439<br />30.3 示例:使用局部加权回归<br />进行拟合441<br />第31章 算法示例443<br />31.1 线性回归443<br />31.2 练习445<br />31.3 逻辑回归446<br />31.3.1 广义线性模型448<br />31.3.2 有不止一个预测因素的<br />逻辑回归450<br />31.4 练习451<br />31.5 k最近邻法451<br />31.6 练习452<br />31.7 生成模型453<br />31.7.1 朴素贝叶斯模型453<br />31.7.2 控制类别主导优势454<br />31.7.3 二次判别分析455<br />31.7.4 线性判别分析458<br />31.7.5 与距离的联系458<br />31.8 案例研究:类别的数量大于3459<br />31.9 练习461<br />31.10 分类回归树462<br />31.10.1 维数灾难462<br />31.10.2 CART动机463<br />31.10.3 回归树465<br />31.10.4 分类树469<br />31.11 随机森林470<br />31.12 练习474<br />第32章 机器学习实践476<br />32.1 预处理477<br />32.2 k最近邻法和随机森林478<br />32.3 变量重要性480<br />32.4 视觉评价480<br />32.5 集成模型481<br />32.6 练习481<br />第33章 大型数据集483<br />33.1 矩阵代数483<br />33.1.1 符号484<br />33.1.2 将向量转化为矩阵486<br />33.1.3 行汇总和列汇总487<br />33.1.4 apply487<br />33.1.5 根据汇总量对列进行过滤488<br />33.1.6 矩阵索引489<br />33.1.7 数据的二值化490<br />33.1.8 矩阵的向量化490<br />33.1.9 矩阵代数运算490<br />33.2 练习491<br />33.3 距离491<br />33.3.1 欧氏距离491<br />33.3.2 高维空间中的距离492<br />33.3.3 欧氏距离举例492<br />33.3.4 预测因素空间494<br />33.3.5 预测因素之间的距离494<br />33.4 练习494<br />33.5 维数缩减495<br />33.5.1 距离的保持495<br />33.5.2 线性变换(进阶)497<br />33.5.3 正交变换(进阶)498<br />33.5.4 主成分分析499<br />33.5.5 鸢尾花示例501<br />33.5.6 MNIST 示例503<br />33.6 练习505<br />33.7 推荐系统505<br />33.7.1 movielens 数据505<br />33.7.2 推荐系统是一个机器学习<br />挑战507<br />33.7.3 损失函数507<br />33.7.4 第一个模型508<br />33.7.5 电影效应建模508<br />33.7.6 用户效应509<br />33.8 练习510<br />33.9 正则化511<br />33.9.1 动机511<br />33.9.2 补偿最小二乘法513<br />33.9.3 惩罚项的选择515<br />33.10 练习517<br />33.11 矩阵分解518<br />33.11.1 因子分析520<br />33.11.2 连接SVD和PCA523<br />33.12 练习525<br />第34章 聚类529<br />34.1 分层聚类530<br />34.2 k均值聚类531<br />34.3 热点图531<br />34.4 特征过滤532<br />34.5 练习532<br />第六部分 生产力工具<br />第35章 生产力工具导论534<br />第36章 使用UNIX进行组织536<br />36.1 命名约定536<br />36.2 终端537<br />36.3 文件系统537<br />36.3.1 目录和子目录538<br />36.3.2 主目录538<br />36.3.3 工作目录540<br />36.3.4 路径540<br />36.4 UNIX命令541<br />36.4.1 ls:列出目录内容541<br />36.4.2 mkdir和rmdir:目录的<br />创建和删除541<br />36.4.3 cd:通过更改目录来<br />浏览文件系统542<br />36.5 示例543<br />36.6 其他UNIX命令545<br />36.6.1 mv:移动文件545<br />36.6.2 cp:复制文件545<br />36.6.3 rm:移除文件546<br />36.6.4 less:查看文件546<br />36.7 为数据科学项目做准备546<br />36.8 UNIX的进阶内容547<br />36.8.1 参数547<br />36.8.2 获取帮助548<br />36.8.3 管道548<br />36.8.4 通配符549<br />36.8.5 环境变量549<br />36.8.6 框架550<br />36.8.7 可执行文件550<br />36.8.8 权限和文件类型551<br />36.8.9 应该掌握的命令551&ltbr />36.8.10 R中的文件管理551<br />第37章 Git和GitHub552<br />37.1 为什么要使用Git和GitHub552<br />37.2 GitHub账户553<br />37.3 GitHub库554<br />37.4 Git概述556<br />37.5 初始化Git目录559<br />37.6 在RStudio中使用Git和<br />GitHub561<br />第38章 使用RStudio和R markdown的<br />可复现项目565<br />38.1 RStudio项目565<br />38.2 R markdown569<br />38.2.1 头文件570<br />38.2.2 R代码块570<br />38.2.3 全局选项571<br />38.2.4 knitr571<br />38.2.5 更多有关R markdown的<br />内容572<br />38.3 组织数据科学项目572<br />38.3.1 在UNIX中创建目录572<br />38.3.2 创建RStudio项目573<br />38.3.3 编辑R脚本574<br />38.3.4 用UNIX创建更多的目录575<br />38.3.5 添加README文件575<br />38.3.6 初始化Git目录575<br />38.3.7 用RStudio进行文件的添加、<br />提交和推送576<br /><br />

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网