您好,欢迎来到聚文网。 登录 免费注册
基于R语言的数据清洗技术

基于R语言的数据清洗技术

  • 字数: 85000
  • 装帧: 平装
  • 出版社: 经济管理出版社
  • 出版日期: 2022-03-01
  • 商品条码: 9787509683149
  • 版次: 1
  • 开本: 32开
  • 页数: 128
  • 出版年份: 2022
定价:¥59 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
内容简介
数据分析指的是将数据转化为价值的一个完整过程,而分析数据只是其中的一个环节而已,第一步工作应该是梳理业务目标。人们在进行数据分析的时候,业务目标与分析数据之间还有一个环节的工作——数据清洗。当你辛辛苦苦梳理完业务目标,结果还没有对数据进行必要的清洗工作就去分析,那么分析的结果很有可能是接近错误的。而本书的目标就是带领读者去识别数据中可能存在的问题,并借助R语言这个工具将问题数据清洗干净,这样才会使得后续的分析结果更加真实可信。
目录
1认识本书的数据集
1.1引言
1.2涉及数据清洗的基本函数
1.2.1进行缺失值判断——is.na函数
1.2.2进行频次统计——table函数
1.2.3进行数据定位——which函数
1.2.4进行数据概览——summary函数
1.2.5输出选定部分——head函数
1.3读入数据
1.4数据的结构与基本信息
1.4.1该数据集的结构
1.4.2该数据集的基本信息
1.5业务目标与数据清洗工作
2识别与清洗数值型数据中的异常值
2.1引言
2.2梳理业务目标
2.3快速清洗异常数据
2.3.1快速识别与删除缺失值
2.3.2快速识别离群值
2.4清洗离群值
2.4.1利用经验清洗离群值
2.4.2利用均值与标准差检测离群值
2.4.3截去部分离群值
2.4.4利用四分位差检测离群值
2.5其他数值数据清洗技术
2.5.1优选值与最小值
2.5.2排序
2.5.3数值变量的分位数
2.5.4自定义函数:数据截断
2.6小结
3利用正则表达式检测字符型数据
3.1引言
3.2正则表达式与grep函数
3.2.1基本语法
3.2.2grep函数
3.2.3grep函数检查无效的电视节目信息
3.3正则表达式与regexpr函数
3.4小结
4处理时间与日期类型的数据
4.1引言
4.2处理时间型数据
4.2.1提取时、分、秒数据
4.2.2识别缺失值
4.2.3识别异常值
4.2.4处理异常值
4.2.5自定义函数判断缺失值
4.3处理日期型数据
……

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网