摘要
第3章数据预处理
3.1
引言
数据是对客观世界及对象的一种符号化或数量化的描述与表示。从客观物理世界中获
得数据的目的是从中获得能够进行挖掘与分析工作所需要的知识。通过对数据的采集和处
理,可以达到获取信息与挖掘知识的目的。例如,气象局采集气象数据以预测天气,海洋生
物学家采集海水样品以监测海洋生态的变化等。
随着科学技术的发展,目前可以采用的数据测量手段越来越多,同时可以获得的数据也
越来越多。对于通过一定的测量和测试手段获取的数据,在进行挖掘与分析工作之前,数据
本身会存在一定的问题。这些问题中有些是因数据自身的不良特性而产生,有些则因受限
于获取数据的客观条件而产生。因此在对数据进行挖掘和分析工作之前,通常需要首先对
数据进行一定的处理工作,以保证后续挖掘和分析的数据质量,即数据预处理。一个典型的
数据预处理过程包括数据清洗、数据集成、数据转换和数据归约等步骤。通常情况下,为了
检测和分析数据中所面临的问题,常常会借助数据的描述性汇总方法来观测数据的趋中趋
势和散布性,以便分析和发现原始数据中可能存在的问题。
本章的内容安排如下:3.3节介绍用于检测和
2节介绍数据预处理相关的基本概念;
分析数据质量问题的数据汇总性描述方法;3.3.
4节介绍用于消除数据噪声的几类典型的数
据清洗方法;5节介绍数据集成相关的概念与方法;6节介绍数据归约和转换相关的方
法;3.3.3.
7节介绍在数据离散化中所用到的主要方法与技术。
3.数据预处理的基本概念
2
本节将介绍与数据预处理相关的基本概念,包括数据的基本概念、数据的属性,以及实
际数据预处理工作中所面对的问题,并介绍数据预处理工作的主要内容。
2.数据的基本概念
3.1
数据是数据对象(dataobjects)及其属性(atributes)的集合。一个数据对象是对一个
事物或者物理对象的描述。一个典型的数据对象可以是一条记录、一个实体、一个案例、一 个样本等。而数据对象的属性则是这个对象的性质或特征,例如一个人的肤色、眼球颜色是
这个人的属性,而某地某天的气温则是该地该天气象记录的属性特征。
表3.对信用
1给出了一个关于银行信用卡数据的例子。银行为控制信用卡欺诈风险,
卡用户提交的资料都会有记录,表中所示为其中一部分记录的示例。其中,每一行为一条记
录,每条记录即一个数据对象,代表一个用户的资料。而每一行的序号、婚姻状态、计税收
入、是否欺诈均为数据对象的属性。而每一条记录的某一列即该对象属性的属性值,如序号
为1的对象“婚姻状态”属性的值为“单身”。
表3.数据的一个例子:信用卡用户的资料
1
序号婚姻状态计税收入(元) 是否欺诈
1 单身130000 否
2 已婚105000 否
3 单身60000 是
属性值是对一个属性所赋予的数值或符号,是属性的具体化。一个属性可以映射为不
同数值类型的属性值,如某人的身高可以是1.也可以是173或1730mm 。不同的
73m, cm,
属性可以映射到相同的属性值空间中,如年龄和序号都可以映射为自然数。受属性的性质
影响,不同属性值性质也可能不同,如序号可以不断增长,但人的年龄却有优选值的。
属性具有不同的类别,可以按照属性值的类型将属性类别分为以下4种。
(1)名称型属性(nominal)。如身份证号码、眼球颜色和邮政编码等。
(2)顺序型属性(ordinal)。如比赛排名、学分成绩和身高等。
(3)间隔型属性(nevl)。如日期间隔、
itra摄氏和华氏温度等。
(4)比率型属性(o)。如百分比和人口比例等。
rati
一个属性属于以上4种属性的哪一种,取决于属性的属性值是否满足下列4种性质:
区别性、有序性、可加性和乘除性。名称型属性的属性值只满足区别性性质,即两个名称型
属性的属性值可以判断相等或不等,但没有判断大小、加减乘除的意义。顺序型属性的属性
值除了满足区别性属性之外,也满足有序性。间隔型属性的属性值满足区别性、有序性和可
加性3种性质。比率型属性的属性值满足以 相对比较集中。
67987678708291858485
在箱线图中,有些数据点由于过于脱离整体,通常
希望把它们单独表示出来,这些点称为离群点
(outlier)。通常使用点与最近的中间四分位数的差来
判断是否属于离群点,通常使用一个常数k(经验值为
1.5)与中间四分位数极差的成绩来定义这个临界差值。
即当数据不属于以下区间时,认为数据为离群点:
[Q1-k(Q3-Q1),Q3+k(Q3-Q1)]
衡量数据分散程度的另外两个常用的指标是方差和标准差。方差通常用S2表示,是数
据的平方误差的期望,样本的(无偏)方差的计算公式为:
S2 = 1 n -1Σn
i=1 (xi -x-)2 = 1 n -1 Σn
i=1
x2i
-1