您好,欢迎来到聚文网。
登录
免费注册
网站首页
|
搜索
热搜:
磁力片
|
漫画
|
购物车
0
我的订单
商品分类
首页
幼儿
文学
社科
教辅
生活
销量榜
数据预处理从入门到实战(基于SQL\R\Python)/图灵程序设计丛书
字数: 421000
装帧: 平装
出版社: 人民邮电出版社
作者: (日)本桥智光
出版日期: 2021-02-01
商品条码: 9787115552327
版次: 1
开本: 16开
页数: 253
出版年份: 2021
定价:
¥89
销售价:
登录后查看价格
¥{{selectedSku?.salePrice}}
库存:
{{selectedSku?.stock}}
库存充足
{{item.title}}:
{{its.name}}
加入购物车
立即购买
加入书单
收藏
精选
¥5.83
世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版
¥5.39
正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册
¥8.58
简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版
¥5.83
世界文学名著全49册中小学生青少年课外书籍文学小说批发正版
¥4.95
全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷
¥8.69
父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册
¥24.2
好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册
¥7.15
幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书
¥11.55
用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书
¥19.8
少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版
¥64
科学真好玩
¥12.7
一年级下4册·读读童谣和儿歌
¥38.4
原生态新生代(传统木版年画的当代传承国际研讨会论文集)
¥11.14
法国经典中篇小说
¥11.32
上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)
¥21.56
猫的摇篮(精)
¥30.72
幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书
¥24.94
旧时风物(精)
¥12.04
三希堂三帖/墨林珍赏
¥6.88
寒山子庞居士诗帖/墨林珍赏
¥6.88
苕溪帖/墨林珍赏
¥6.88
楷书王维诗卷/墨林珍赏
¥9.46
兰亭序/墨林珍赏
¥7.74
祭侄文稿/墨林珍赏
¥7.74
蜀素帖/墨林珍赏
¥12.04
真草千字文/墨林珍赏
¥114.4
进宴仪轨(精)/中国古代舞乐域外图书
¥24.94
舞蹈音乐的基础理论与应用
编辑推荐
一本书掌握大数据、人工智能时代需要的数据预处理技术 ·KDD CUP 2015亚军得主多行业实战经验总结; ·54道例题,涵盖常见数据预处理技术; ·3个实战案例,快速提升应用能力; ·3种语言实现对比,代码优化关键点一目了然; ·配套数据+源码可下载; ·SQL的版本为Redshift,Pyhton的版本为3.6,R的版本的3.4; ·双色印刷。 数据提取/数据聚合/数据连接/数据拆分/数据生成/数据扩展 数值型/分类型/日期时间型/字符型/位置信息型 1.习题式结构,带着问题思考、学习,效果更好 本书采用问题驱动式,先抛出常见预处理任务,引导读者思考如何实现。像这样带着问题学习,可以大大提高学习效果,让理解更深入。 2.对比3种不同语言的实现,把握每种语言的特长 用SQL、R、Python对比解决相同的案例问题,可以让读者了解各语言在处理各种预处理问题时有哪些优缺点,从而根据情况选择合适的语言,提升预处理效率。 3.同时给出一般代码与理想代码,优化处理的关键一目了然 对于每道例题,都同时给出一般代码与理想代码,读者不仅可以边阅读边思考如何修改一般代码,还可以通过与理想代码的对比明白如何优化代码。
内容简介
在大数据、人工智能时代,数据分析必不可少。本书以数据分析中至关重要的数据预处理为主题,通过54道例题具体介绍了基于SQL、R、Python的处理方法和相关技巧。全书共4个部分:第1部分介绍预处理的基础知识;第2部分介绍以数据结构为对象的预处理,包括数据提取、数据聚合、数据连接、数据拆分、数据生成和数据扩展;第3部分介绍以数据内容为对象的预处理,涉及数值型、分类型、日期时间型、字符型和位置信息型;第4部分为预处理实战,介绍与实际业务相同的预处理流程。 本书适合新手数据科学家、系统工程师、具备编程及数理基础的技术人才,以及对数据挖掘和数据分析等感兴趣的人阅读。
作者简介
本桥智光(作者) 先后在系统开发公司担任研究员,在互联网企业担任数据科学家,目前在数字医疗初创公司SUSMED株式会社担任CTO,同时就职于HOXO-M株式会社,并以自由职业者的身份从事量子退火计算机的验证工作,拥有制造业、零售业、金融业、运输业、休闲业和互联网等多个行业的数据分析经验。曾在KDD CUP 2015中赢得亚军。爱好是开发马里奥AI。 Twitter:@tomomoto_LV3 陈涛(译者) 运筹学硕士毕业,主要从事数据库、数据分析工作,对机器学习、深度学习领域相关的理论和技术较为熟悉。因兴趣自学日语,一直致力于追求兴趣和工作的完美结合。 邮箱:victory123_456@163.com
目录
第1部分 预处理入门
第1章 什么是预处理
1-1 数据
记录数据
数据类型
1-2 预处理的作用
机器学习
无监督学习和有监督学习
用于数据分析的3种预处理
1-3 预处理的流程
对数据结构的预处理
对数据内容的预处理
预处理的步骤
1-43 种编程语言
正确使用编程语言
1-5 包和库
用于数据分析的包和库
1-6 数据集
酒店预订记录
工厂产品记录
月度指标记录
文本数据集
1-7 读取数据
第2部分 对数据结构的预处理
第2章 数据提取
2-1 提取指定的列
Q 提取列
2-2 按指定条件提取
Q 按条件提取数据行
Q 间接利用索引提取数据行
2-3 不基于数据值的采样
Q 随机采样
2-4 基于聚合ID的采样
Q 按ID采样
第3章 数据聚合
3-1 计算数据条数和类型数
Q 计数和唯一值计数
3-2 计算合计值
Q 合计值
3-3 计算最值、代表值
Q 代表值
3-4 计算离散程度
Q 方差和标准差
3-5 计算众数
Q 众数
3-6 排序
排序函数
Q 为时序数据添加编号
Q 排序
第4章 数据连接
4-1 主表的连接
Q 主表的连接
4-2 切换按条件连接的表
Q 切换按条件连接的主表
4-3 连接历史数据
Q 获取往前数第n条记录的数据
Q 前n条记录的合计值
Q 前n条记录的平均值
Q 过去n天的合计值
4-4 交叉连接
Q 交叉连接处理
第5章 数据拆分
5-1 记录数据中模型验证数据的拆分
Q 交叉验证
5-2 时序数据中模型验证数据的拆分
Q 准备时序数据中的训练数据和验证数据
第6章 数据生成
6-1 通过欠采样调整不平衡数据
6-2 通过过采样调整不平衡数据
Q 过采样
第7章 数据扩展
7-1 转换为横向显示
Q 转换为横向显示
7-2 转换为稀疏矩阵
Q 稀疏矩阵
第3部分 对数据内容的预处理
第8章 数值型
8-1 转换为数值型
Q 各种数据类型的转换
8-2 通过对数化实现非线性变换
Q 对数化
8-3 通过分类化实现非线性变换
Q 数值型的分类化
8-4 归一化
Q 归一化
8-5 删除异常值
Q 根据标准差删除异
8-6 用主成分分析实现降维
Q 用主成分分析实现降维
8-7 数值填充
Q 删除缺失记录
Q 用常数填充
Q 均值填充
Q 用PMM实现多重插补
第9章 分类型
9-1 转换为分类型
Q 分类型的转换
9-2 哑变量化
Q 哑变量化
9-3 分类值的聚合
Q 分类值的聚合
9-4 分类值的组合
Q 分类值的组合
9-5 分类型的数值化
Q 分类型的数值化
9-6 分类型的填充
Q 用KNN填充
第10章 日期时间型
10-1 转换为日期时间型、日期型
Q 日期时间型、日期型的转换
10-2 转换为年、月、日、时、分、秒、星期
Q 获取各日期时间元素
10-3 转换为日期时间差
Q 计算日期时间差
10-4 日期时间型的增减
Q 日期时间的增减处理
10-5 转换为季节
Q 转换为季节
10-6 转换为时间段
10-7 转换为工作日、休息日
Q 添加休息日标志
第11章 字符型
11-1 通过形态分析进行分解
Q 提取名词和动词
11-2 转换为单词的集合数据
Q 创建词袋
11-3 用TF-IDF调整单词权重
Q 创建使用TF-IDF的词袋
第12章 位置信息型
12-1 从日本坐标系到世界坐标系的转换以及从度、分、秒到度的转换
Q 从日本坐标系转换为世界坐标系
12-2 两点间距离、方向的计算
Q 计算距离
第4部分 预处理实战
第13章 实战练习
13-1 聚合分析的预处理
Q 聚合分析的准备工作
13-2 用于推荐的预处理
Q 生成推荐矩阵
13-3 预测建模的预处理
Q 用于预测建模的预处理
结语
参考文献
×
Close
添加到书单
加载中...
点此新建书单
×
Close
新建书单
标题:
简介:
蜀ICP备2024047804号
Copyright 版权所有 © jvwen.com 聚文网