《数据挖掘导论》读书笔记——第二章:数据
1、数据类型:定量、定性、即其它特性。
数据类型决定可以使用何种工具和技术来分析数据。
新的应用领域和信的数据类型推动新的数据挖掘研究。
2、数据质量:
注重理解和提高数据质量,将改进分析结果的质量。
通常的数据质量问题:存在噪声和利群点、数据遗漏、不一致和重复、数据有偏差。
3、是数据更适合数据挖掘的预处理步骤:处理使之更适合于分析,目的(1)提高数据质量,2更好地适应特定的DW技术活工具(例如:连续值转离散值、数据集属性数目需减少)。
4、根据“数据联系”分析数据。
5、一定要了解数据。
6、数据集:数据对象的集合,数据对象别名(记录、点、向来、模式、事件、案例、样本、观测活实体),属性别名(变量、特性、字段、特征、维)
7、属性:符号属性、数值属性。
测量标度(measurement scale):将数据或符号与对象属性相关联的规则(函数)。
8、属性类型,也称测量标度的类型。
4中性质:相异性、序、加法、乘法。(以此定义4种属性类型:标称nominal、序数ordinal、区间interval、比率ratio)其定义依据是操作性质的范围越来越窄。
标称、序数统称分类的(categorical)或定性的(qualitative)属性,区间、比率属性统称定量(quantitative)或数值(numeric)属性。
属性类型也可用允许的变换(permissible transformation)来描述。
表2-2很重要
9、用值的个数描述属性:离散(discrete)、连续(continuous)
计数属性(count attribute)是离散也是比率属性。
10、非对称属性(asymmetric attribute):
非对称属性的含义:出现非零属性值才是重要的。
11、数据集对挖掘技术有影响的特性:维度、稀疏性、分辨率(resolution)。
维度:维灾难(curse of dimensionality)、维规约(dismensionality reduction)。
稀疏性(sparsity)。
数据模式也依赖于分辨率。
12、记录数据、事务或购物篮数据、数据矩阵(模式矩阵)、稀疏数据矩阵。
13、基于图形的数据
(1)捕获数据对象之间的联系(即图形化表示)
(2)具有图形对象的数据。
14、有序数据:
(1)时序数据(sequential data)、时间数据(temporal data)
(2)序列数据(sequence data)
(3)时间序列数据(time series data):注意数据会存在时间自相关性(temporal autocorrelation)
(4)空间数据(spatial data):注意时间会存在空间自相关性(spatial autocorrelation)
15、处理非记录数据
数据质量。
检测和纠正(成为数据清理data cleaning)。
使用可以容忍低质量数据的算法。
16、数据测量和收集。
(1)测量误差(measurement error)和数据收集错误(data collection error)
(2)噪声和伪像:鲁棒算法及是针对噪声设计的。
(3)精度、偏倚、准确率、有效数字。
精度:
偏倚:
准确率:
有效数字:
17、离群点(outlier)、异常()
遗漏值(方法:删除数据对象或属性、估计遗漏值、分析时忽略遗漏值)
18、不一致的值:去重(deduplication)
19、在应用中的数据相关问题:时效性、相关性(抽样偏倚)、关于数据的知识。
数据类型决定可以使用何种工具和技术来分析数据。
新的应用领域和信的数据类型推动新的数据挖掘研究。
2、数据质量:
注重理解和提高数据质量,将改进分析结果的质量。
通常的数据质量问题:存在噪声和利群点、数据遗漏、不一致和重复、数据有偏差。
3、是数据更适合数据挖掘的预处理步骤:处理使之更适合于分析,目的(1)提高数据质量,2更好地适应特定的DW技术活工具(例如:连续值转离散值、数据集属性数目需减少)。
4、根据“数据联系”分析数据。
5、一定要了解数据。
6、数据集:数据对象的集合,数据对象别名(记录、点、向来、模式、事件、案例、样本、观测活实体),属性别名(变量、特性、字段、特征、维)
7、属性:符号属性、数值属性。
测量标度(measurement scale):将数据或符号与对象属性相关联的规则(函数)。
8、属性类型,也称测量标度的类型。
4中性质:相异性、序、加法、乘法。(以此定义4种属性类型:标称nominal、序数ordinal、区间interval、比率ratio)其定义依据是操作性质的范围越来越窄。
标称、序数统称分类的(categorical)或定性的(qualitative)属性,区间、比率属性统称定量(quantitative)或数值(numeric)属性。
属性类型也可用允许的变换(permissible transformation)来描述。
表2-2很重要
9、用值的个数描述属性:离散(discrete)、连续(continuous)
计数属性(count attribute)是离散也是比率属性。
10、非对称属性(asymmetric attribute):
非对称属性的含义:出现非零属性值才是重要的。
11、数据集对挖掘技术有影响的特性:维度、稀疏性、分辨率(resolution)。
维度:维灾难(curse of dimensionality)、维规约(dismensionality reduction)。
稀疏性(sparsity)。
数据模式也依赖于分辨率。
12、记录数据、事务或购物篮数据、数据矩阵(模式矩阵)、稀疏数据矩阵。
13、基于图形的数据
(1)捕获数据对象之间的联系(即图形化表示)
(2)具有图形对象的数据。
14、有序数据:
(1)时序数据(sequential data)、时间数据(temporal data)
(2)序列数据(sequence data)
(3)时间序列数据(time series data):注意数据会存在时间自相关性(temporal autocorrelation)
(4)空间数据(spatial data):注意时间会存在空间自相关性(spatial autocorrelation)
15、处理非记录数据
数据质量。
检测和纠正(成为数据清理data cleaning)。
使用可以容忍低质量数据的算法。
16、数据测量和收集。
(1)测量误差(measurement error)和数据收集错误(data collection error)
(2)噪声和伪像:鲁棒算法及是针对噪声设计的。
(3)精度、偏倚、准确率、有效数字。
精度:
偏倚:
准确率:
有效数字:
17、离群点(outlier)、异常()
遗漏值(方法:删除数据对象或属性、估计遗漏值、分析时忽略遗漏值)
18、不一致的值:去重(deduplication)
19、在应用中的数据相关问题:时效性、相关性(抽样偏倚)、关于数据的知识。