数据挖掘:方法与应用(第2版)--聚文网

精选

¥5.83

世界图书名著昆虫记绿野仙踪木偶奇遇记儿童书籍彩图注音版

¥5.39

正版世界名著文学小说名家名译中学生课外阅读书籍图书批发 70册

¥8.58

简笔画10000例加厚版2-6岁幼儿童涂色本涂鸦本绘画本填色书正版

¥5.83

世界文学名著全49册中小学生青少年课外书籍文学小说批发正版

¥4.95

全优冲刺100分测试卷一二三四五六年级上下册语文数学英语模拟卷

¥8.69

父与子彩图注音完整版小学生图书批发儿童课外阅读书籍正版1册

¥24.2

好玩的洞洞拉拉书0-3岁宝宝早教益智游戏书机关立体翻翻书4册

¥7.15

幼儿认字识字大王3000字幼儿园中班大班学前班宝宝早教启蒙书

¥11.55

用思维导图读懂儿童心理学培养情绪管理与性格培养故事指导书

¥19.8

少年读漫画鬼谷子全6册在漫画中学国学小学生课外阅读书籍正版

¥64

科学真好玩

¥12.7

一年级下4册·读读童谣和儿歌

¥38.4

原生态新生代(传统木版年画的当代传承国际研讨会论文集)

¥11.14

法国经典中篇小说

¥11.32

上海的狐步舞--穆时英(中国现代文学馆馆藏初版本经典)

¥22.05

猫的摇篮(精)

¥30.72

幼儿园特色课程实施方案/幼儿园生命成长启蒙教育课程丛书

旧时风物(精)

三希堂三帖/墨林珍赏

寒山子庞居士诗帖/墨林珍赏

苕溪帖/墨林珍赏

楷书王维诗卷/墨林珍赏

兰亭序/墨林珍赏

祭侄文稿/墨林珍赏

蜀素帖/墨林珍赏

真草千字文/墨林珍赏

进宴仪轨(精)/中国古代舞乐域外图书

舞蹈音乐的基础理论与应用

编辑推荐

了解数据挖掘的基本概念，掌握数据分析技术，开展数据挖掘相关领域的工作和学习研究。

内容简介

本书主要根据作者近几年在清华大学面向研究生和本科生开设的“数据挖掘：方法与应用”课程的教学实践与积累，参考近几年国外有名大学相关课程的教学体系编写而成。本书系统地介绍数据挖掘的基本概念和基本原理方法；结合一些典型的应用实例展示用数据挖掘的思维方法求解问题的一般性模式与思路。本书可作为有一定数据结构、数据库和程序设计基础的研究生或本科生开展数据挖掘知识学习和研究的入门性教材与参考读物。

作者简介

徐华，清华大学计算机系副教授，博士生导师。长期担任数据挖掘、网络产品设计等相关本科研究生课程的教学工作。主要从事智能机器人相关的智能优化调度、智能交互方面的研究工作。目前发表国际期刊论文40篇，领域很好国际会议论文70篇，获得国家科技进步二等奖一次，省部级政府科技奖励4次，行业协会科技发明一等奖2次。

第1章绪论1
1.1应用背景1
1.1.1商业上的驱动2
1.1.2科学研究上的驱动2
1.1.3数据挖掘伴随着数据库数据库技术而出现2
1.2什么是数据挖掘3
1.2.1基本描述3
1.2.2知识发现知识发现4
1.3数据挖掘的主要技术5
1.4数据挖掘的主要研究内容7
1.5数据挖掘面临的主要问题10
1.6数据挖掘相关的资料11
1.7本书的总体章节安排12
1.8小结13
参考文献13
第2章数据获取15
2.1引言15
2.2背景介绍15
2.3数据采集17
2.3.1数据发现17
2.3.2数据增强18
2.3.3数据生成18
2.4数据标注19
2.4.1利用现有标签19
2.4.2基于众包技术19
2.4.3使用弱监督学习的方法20
2.5提升已有数据和模型20
2.5.1提升已有数据20
2.5.2提升已有模型21
2.6技术选择指南21
2.7小结21
参考文献21
第3章数据预处理23
3.1引言23
3.2数据预处理的基本概念23
3.2.1数据的基本概念23
3.2.2为什么要进行数据预处理26
3.2.3数据预处理的任务27
3.3数据的描述27
3.3.1描述数据的中心趋势28
3.3.2描述数据的分散程度30
3.3.3描述数据的其他方式31
3.4数据清洗33
3.4.1数据缺失的处理33
3.4.2数据清洗34
3.5数据集成和转换36
3.5.1数据集成36
3.5.2数据冗余36
3.5.3数据转换38
3.6数据归约和变换39
3.6.1数据归约39
3.6.2数据离散化42
3.6.3概念层次生成43
3.7小结44
参考文献45
第4章数据仓库46
4.1引言46
4.2数据库基本概念回顾46
4.2.1数据库简介47
4.2.2表、记录和域47
4.2.3数据库管理系统47
4.3数据仓库简介48
4.3.1数据仓库特点48
4.3.2数据仓库概念49
4.3.3数据仓库作用50
4.3.4数据仓库与DBMS对比50
4.3.5分离数据仓库的原因51
4.4多维数据模型52
4.4.1数据立方体52
4.4.2概念模型54
4.4.3概念分层概念分层57
4.4.4典型OLAP操作58
4.4.5星型网络的查询模型60
4.5数据仓库结构61
4.5.1数据仓库设计61
4.5.2多层体系结构63
4.6数据仓库的功能64
4.6.1数据立方体的有效计算64
4.6.2索引OLAP数据69
4.6.3OLAP查询的有效处理70
4.7从数据仓库到数据挖掘70
4.7.1数据仓库应用70
4.7.2从OLAP到OLAM71
4.8小结73
参考文献73
第5章相关性与关联规则75
5.1基本概念75
5.1.1潜在的应用75
5.1.2购物篮问题购物篮问题76
5.1.3频繁模式分析、闭项集和关联规则76
5.2频繁项集挖掘方法78
5.2.1Apriori算法78
5.2.2由频繁项集产生关联规则80
5.2.3提高Apriori的效率81
5.2.4挖掘频繁项集的模式增长方法82
5.3多种关联规则挖掘关联规则挖掘84
5.3.1挖掘多层关联规则84
5.3.2挖掘多维关联规则86
5.3.3挖掘量化关联规则87
5.4从关联分析到相关分析相关分析88
5.4.1相关分析89
5.4.2强规则不一定是有价值的89
5.4.3挖掘高度关联的模式90
5.5基于约束的频繁模式挖掘91
5.5.1关联规则的元规则制导挖掘91
5.5.2基于约束的模式生成:模式空间剪枝和数据空间剪枝92
5.6小结94
参考文献94
第6章分类和预测100
6.1引言100
6.2基本概念100
6.2.1什么是分类100
6.2.2什么是预测102
6.3关于分类和预测的问题102
6.3.1准备分类和预测的数据102
6.3.2评价分类和预测方法102
6.4决策树决策树分类103
6.4.1决策树归纳104
6.4.2属性选择度量104
6.4.3提取分类规则107
6.4.4基本决策树归纳的增强108
6.4.5在大数据集中的分类108
6.5贝叶斯分类108
6.5.1贝叶斯定理109
6.5.2朴素贝叶斯分类朴素贝叶斯分类109
6.5.3贝叶斯信念网络贝叶斯信念网络111
6.5.4贝叶斯网络学习112
6.6神经网络113
6.6.1神经网络神经网络简介114
6.6.2多层神经网络114
6.6.3神经网络训练115
6.6.4后向传播115
6.6.5网络剪枝和规则抽取117
6.7支持向量机118
6.7.1数据线性可分的情况118
6.7.2数据线性不可分的情况120
6.7.3支持向量机和神经网络的对比122
6.8关联分类关联分类122
6.8.1为什么有效123
6.8.2常见关联分类算法123
6.9分类准确率123
6.9.1估计错误率124
6.9.2装袋装袋和提升提升124
6.10小结126
参考文献126
第7章深度学习129
7.1引言129
7.2卷积神经网络129
7.2.1卷积运算129
7.2.2卷积层130
7.2.3池化层132
7.2.4典型结构及其应用133
7.3循环神经网络134
7.3.1循环神经网络135
7.3.2长短期记忆神经网络135
7.3.3门控循环单元网络136
7.3.4双向循环神经网络137
7.3.5典型结构及其应用138
7.4常用的深度学习框架139
7.5小结139
参考文献139
第8章聚类分析141
8.1聚类分析的定义和数据类型141
8.1.1聚类的定义141
8.1.2聚类分析和主要应用142
8.1.3聚类分析方法的性能指标143
8.1.4聚类分析使用的数据类型143
8.2聚类分析方法分类与相似性质量145
8.2.1聚类分析方法分类145
8.2.2连续变量的距离与相似性度量146
8.2.3二元变量与标称变量的相似性度量148
8.2.4序数和比例标度变量的相似性度量149
8.2.5混合类型变量的相似性度量149
8.3基于分割的聚类150
8.4基于层次的聚类153
8.5基于密度的聚类157
8.6基于网格的聚类158
8.7基于模型的聚类159
8.8离群点离群点检测离群点检测160
8.9小结161
参考文献161
第9章数据可视化163
9.1引言163
9.2数据可视化的参考模型163
9.3数据可视化的基本准则164
9.3.1正确性164
9.3.2高效性165
9.3.3可观性166
9.44类典型数据的可视化166
9.4.1统计数据可视化166
9.4.2文本数据可视化167
9.4.3网络关系数据可视化168
9.4.4时空数据可视化170
9.5小结170
参考文献171
第10章数据挖掘应用172
10.1引言172
10.2应用研发思路173
10.3预处理方法173
10.3.1基础数据说明173
10.3.2数字化方法说明173
10.3.3深入一步的预处理方法175
10.3.4基本数据分布情况说明177
10.3.5初步分析结果178
10.3.6小结181
10.4特征提取方法181
10.4.18种特征提取方法181
10.4.2特征总体排名策略182
10.4.3最终关键特征183
10.4.4特征提取与分析结论187
10.4.5小结188
10.5皮肤特征预测模型188
10.5.1预测方法回顾189
10.5.2预测结果分析与结论190
10.5.3小结200
10.6小结201
参考文献202
附录203
附录A插图索引203
附录B表格索引205
附录C算法索引207
附录D关键词索引207

摘要

第3章数据预处理 3.1 引言数据是对客观世界及对象的一种符号化或数量化的描述与表示。从客观物理世界中获得数据的目的是从中获得能够进行挖掘与分析工作所需要的知识。通过对数据的采集和处理,可以达到获取信息与挖掘知识的目的。例如,气象局采集气象数据以预测天气,海洋生物学家采集海水样品以监测海洋生态的变化等。随着科学技术的发展,目前可以采用的数据测量手段越来越多,同时可以获得的数据也越来越多。对于通过一定的测量和测试手段获取的数据,在进行挖掘与分析工作之前,数据本身会存在一定的问题。这些问题中有些是因数据自身的不良特性而产生,有些则因受限于获取数据的客观条件而产生。因此在对数据进行挖掘和分析工作之前,通常需要首先对数据进行一定的处理工作,以保证后续挖掘和分析的数据质量,即数据预处理。一个典型的数据预处理过程包括数据清洗、数据集成、数据转换和数据归约等步骤。通常情况下,为了检测和分析数据中所面临的问题,常常会借助数据的描述性汇总方法来观测数据的趋中趋势和散布性,以便分析和发现原始数据中可能存在的问题。本章的内容安排如下:3.3节介绍用于检测和 2节介绍数据预处理相关的基本概念; 分析数据质量问题的数据汇总性描述方法;3.3. 4节介绍用于消除数据噪声的几类典型的数据清洗方法;5节介绍数据集成相关的概念与方法;6节介绍数据归约和转换相关的方法;3.3.3. 7节介绍在数据离散化中所用到的主要方法与技术。 3.数据预处理的基本概念 2 本节将介绍与数据预处理相关的基本概念,包括数据的基本概念、数据的属性,以及实际数据预处理工作中所面对的问题,并介绍数据预处理工作的主要内容。 2.数据的基本概念 3.1 数据是数据对象(dataobjects)及其属性(atributes)的集合。一个数据对象是对一个事物或者物理对象的描述。一个典型的数据对象可以是一条记录、一个实体、一个案例、一个样本等。而数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色是这个人的属性,而某地某天的气温则是该地该天气象记录的属性特征。表3.对信用 1给出了一个关于银行信用卡数据的例子。银行为控制信用卡欺诈风险, 卡用户提交的资料都会有记录,表中所示为其中一部分记录的示例。其中,每一行为一条记录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、婚姻状态、计税收入、是否欺诈均为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如序号为1的对象“婚姻状态”属性的值为“单身”。表3.数据的一个例子:信用卡用户的资料 1 序号婚姻状态计税收入(元) 是否欺诈 1 单身130000 否 2 已婚105000 否 3 单身60000 是属性值是对一个属性所赋予的数值或符号,是属性的具体化。一个属性可以映射为不同数值类型的属性值,如某人的身高可以是1.也可以是173或1730mm 。不同的 73m, cm, 属性可以映射到相同的属性值空间中,如年龄和序号都可以映射为自然数。受属性的性质影响,不同属性值性质也可能不同,如序号可以不断增长,但人的年龄却有优选值的。属性具有不同的类别,可以按照属性值的类型将属性类别分为以下4种。 (1)名称型属性(nominal)。如身份证号码、眼球颜色和邮政编码等。 (2)顺序型属性(ordinal)。如比赛排名、学分成绩和身高等。 (3)间隔型属性(nevl)。如日期间隔、 itra摄氏和华氏温度等。 (4)比率型属性(o)。如百分比和人口比例等。 rati 一个属性属于以上4种属性的哪一种,取决于属性的属性值是否满足下列4种性质: 区别性、有序性、可加性和乘除性。名称型属性的属性值只满足区别性性质,即两个名称型属性的属性值可以判断相等或不等,但没有判断大小、加减乘除的意义。顺序型属性的属性值除了满足区别性属性之外,也满足有序性。间隔型属性的属性值满足区别性、有序性和可加性3种性质。比率型属性的属性值满足以相对比较集中。 67987678708291858485 在箱线图中,有些数据点由于过于脱离整体,通常希望把它们单独表示出来,这些点称为离群点 (outlier)。通常使用点与最近的中间四分位数的差来判断是否属于离群点,通常使用一个常数k(经验值为 1.5)与中间四分位数极差的成绩来定义这个临界差值。即当数据不属于以下区间时,认为数据为离群点: [Q1-k(Q3-Q1),Q3+k(Q3-Q1)] 衡量数据分散程度的另外两个常用的指标是方差和标准差。方差通常用S2表示,是数据的平方误差的期望,样本的(无偏)方差的计算公式为: S2 = 1 n -1Σn i=1 (xi -x-)2 = 1 n -1 Σn i=1 x2i -1

数据挖掘:方法与应用(第2版)

库存： {{selectedSku?.stock}} 库存充足

上架到店铺