您好,欢迎来到聚文网。 登录 免费注册
数据分析通识

数据分析通识

  • 字数: 463000
  • 装帧: 平装
  • 出版社: 人民邮电出版社
  • 作者: 途索
  • 出版日期: 2020-10-01
  • 商品条码: 9787115544452
  • 版次: 1
  • 开本: 16开
  • 页数: 308
  • 出版年份: 2020
定价:¥69 销售价:登录后查看价格  ¥{{selectedSku?.salePrice}} 
库存: {{selectedSku?.stock}} 库存充足
{{item.title}}:
{{its.name}}
精选
编辑推荐
1.来自阿里巴巴公司的一线数据分析工程师力作,人人看得懂用得上的数据分析书; 2.理论联系实际:书中大量的实例来自一线大厂,佐证数据分析和数据建模的理论和方法,对职场数据相关从业者很有帮助; 3.内容全面:从数据开始,到数据的处理过程和可视化,到业务的数据分析、数据建模,再到数据与人工智能应用的结合等; 4.通俗易懂:通过大量的实例,把数据建模与数据分析讲解得通俗易懂,帮助大家快速成为数据分析实战高手。 主要内容包括:数据处理的抽象流程与数据系统的有机组成、数据获取、探索性数据分析与目的性数据分析、数据可视化、特征工程、模型(业务模型、数据模型、函数模型)、结果评价、数据应用等内容。
内容简介
本书务实的数据分析科学技术、精彩的实际业务案例,很好地满足了从业者的实际需求;本书是作者结合近几年的工作经验,将在实际业务场景中的案例进行脱敏抽象,置于本书的每章之中,从而形成的一本把数据分析科学技术应用于实际业务的数据分析类图书。主要内容包括数据处理的抽象流程、数据系统的有机组成、数据获取、探索性数据分析、目的性数据分析、数据可视化、特征工程、模型、结果评价、数据应用等。本书介绍了数据分析科学的许多方面,不但适合业务分析人员和数据分析与建模从业者学习,还可作为大专院校相关专业师生的学习用书,以及相关培训学校的教材。
作者简介
途索,就职于大型互联网公司,数据分析专家,从事多年数据科学相关的工作。在消费级领域(C端)与企业级领域(B端)从事过数十个大数据与算法方面的工程与项目,曾多次得到公司的嘉奖和业内的肯定。
目录
第0章技术与业务1
0.1一个场景1
0.2什么是业务2
0.3技术与业务的分工3
0.4数据分析工作者的定位4
第1章数据处理的抽象流程与数据系统的有机组成6
1.1数据与大数据6
1.2数据驱动的系统7
1.3数据处理的一般环节8
1.4数据的服务对象9
1.5与数据业务相关的技术分工11
第2章数据获取15
2.1获取数据需要的成本15
2.2获取数据的主要方式15
2.2.1设备采集15
2.2.2业务记录与调查16
2.2.3日志与埋点16
2.2.4爬虫抓取17
2.2.5合作、服务与购买18
2.2.6数据仓库19
2.3采样数据的陷阱20
2.4本章涉及的技术实现方案22
2.4.1爬虫抓取(Python版)22
2.4.2前端埋点SDK23
2.4.3日志采集23
2.4.4数据仓库23
第3章探索性数据分析与目的性数据分析24
3.1探索性数据分析24
3.2一份数据集24
3.3数据字段分类25
3.4遍历每个字段26
3.4.1了解离散属性27
3.4.2了解连续属性28
3.4.3分布与分箱32
3.4.4异常值与数据清洗36
3.5数据分析的本质37
3.5.1寻找用来比较的实体39
3.5.2拿什么进行比较42
3.5.3怎样进行比较42
3.6目的性数据分析89
3.6.1目的性数据分析的一般方法90
3.6.2目的性数据分析的意义92
3.7本章涉及的技术实现方案93
3.7.1数据分析软件93
3.7.2SQL96
3.7.3Python97
3.7.4大数据分析解决方案98
第4章展示信息的推荐方式——可视化100
4.1数据可视化100
4.2常见的图表类型与应用场景101
4.2.1趋势型101
4.2.2比较型104
4.2.3比例型106
4.2.4分布型107
4.2.5区间型109
4.2.6关联型109
4.2.7地理型112
4.3数据可视化与数据分析112
4.3.1数据可视化与假设检验、分布拟合112
4.3.2数据可视化与多维分析、钻取分析、交叉分析115
4.3.3数据可视化与秩次分析117
4.3.4数据可视化与相关分析、回归分析119
4.3.5数据可视化与分组归类121
4.3.6数据可视化与目的性数据分析122
4.4可视化数据交互122
4.4.1交互式可视化的流程124
4.4.2常见的数据可视化交互组件124
4.5可视化设计125
4.5.1可视化设计的美学原则125
4.5.2可视化设计的高效原则126
4.5.3可视化交互的一些准则129
4.6可视化工程129
4.6.1确定主题130
4.6.2提炼数据130
4.6.3选择合适的图表131
4.6.4可视化设计131
4.7本章涉及的技术实现方案131
4.7.1Python131
4.7.2开源可视化API132
4.7.3商业化132
第5章特征工程133
5.1变量、字段、属性、维度和特征133
5.2特征工程的内涵135
5.3特征获取136
5.3.1获取用于提取特征的数据136
5.3.2特征的可用性评估137
5.3.3从特征获取的角度清洗数据137
5.4特征处理与提取138
5.4.1数据清洗138
5.4.2特征选择138
5.4.3特征变换143
5.4.4特征抽取153
5.4.5特征衍生156
5.5特征监控161
5.5.1监控已有特征161
5.5.2寻找新的特征162
5.6一个例子163
5.6.1有哪些数据163
5.6.2提取业务特征164
5.6.3特征处理165
5.6.4二次特征衍生165
5.6.5二次特征处理165
5.6.6建模与迭代165
5.7头脑风暴166
5.8本章涉及的技术实现方案167
5.8.1Python167
5.8.2大数据平台的特征工程模块168
5.8.3组件化的特征工程168
第6章模型169
6.1模型的概念169
6.2业务模型、数据模型、函数模型170
6.2.1业务模型170
6.2.2数据模型171
6.2.3函数模型173
6.2.4其他“模型”与上述3种模型的关系174
6.3机器学习与统计建模的联系与区别175
6.4函数模型与业务176
6.4.1数据、特征工程与函数模型177
6.4.2监督学习、无监督学习、半监督学习与归纳偏置177
6.4.3交叉验证与过拟合182
6.5常见的函数模型185
6.5.1数据的刻画方式185
6.5.2分类与回归191
6.5.3聚类237
6.5.4关联245
6.5.5半监督学习249
6.6调参253
6.6.1调参调的是超参数253
6.6.2经验调参254
6.6.3简单模型254
6.7什么样的模型是好模型255
6.7.1模型选择255
6.7.2可解释性256
6.7.3奥卡姆剃刀原理257
6.8迁移学习与强化学习259
6.8.1迁移学习259
6.8.2强化学习261
6.9本章涉及的技术实现方案263
6.9.1Python263
6.9.2大数据264
第7章结果评价265
7.1分类模型的结果评价265
7.1.1正样本与负样本265
7.1.2混淆矩阵及其衍生指标266
7.1.3ROC与AUC268
7.1.4提升图271
7.1.5KS曲线271
7.1.6过采样与欠采样272
7.2回归模型的结果评价273
7.2.1基于绝对数值的结果评价273
7.2.2基于比例数值的结果评价274
7.2.3决定系数与校正决定系数274
7.3聚类模型的结果评价275
7.3.1方差275
7.3.2轮廓系数275
7.3.3兰德系数276
7.4关联模型的结果评价276
7.5本章涉及的技术实现方案276
第8章数据应用与人工智能278
8.1业务数据化与数据业务化278
8.2数据应用的常见产出形式279
8.2.1指标279
8.2.2表格280
8.2.3可视化图表与交互273
8.2.4报告280
8.2.5模型280
8.3几种典型的数据应用系统280
8.3.1离线挖掘任务流280
8.3.2实时预测与挖掘任务281
8.3.3推荐系统281
8.3.4搜索引擎282
8.3.5Feed流283
8.4数据应用系统的优势与283
第9章未来的数据与数据的未来285
9.1数据融合与未来数据驱动系统的展望285
9.1.1数据化是一切的起点285
9.1.2融合是数据发挥能量的关键286
9.1.3计算还是太慢了287
9.1.4为什么要数据化、融合、计算?287
9.2人工智能288
9.2.1人与人工智能288
9.2.2智能是个系统289
9.2.3智能域290
后记——拥抱不确定的美好291
参考文献295

蜀ICP备2024047804号

Copyright 版权所有 © jvwen.com 聚文网