数据预处理概述;2025/4/30;为什么要进行数据挖掘?;为什么数据预处理重要?;2025/4/30;2025/4/30;
;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;例:;均值填补:;2025/4/30;2025/4/30;2025/4/30;例:;2025/4/30;2025/4/30;2025/4/30;异常点;;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;为什么要进行标准化?;小数缩放移动小数点,但是要仍然保持原始数据的特征。小数点的移动位数依赖于X的最大绝对值。
典型的缩放是保持数值在-1和1范围内,可以用格式描述:
;2、最小-最大规范化;2025/4/30;为什么要进行数据的平滑?;2025/4/30;2025/4/30;2025/4/30;2025/4/30;;2、回归;3、通过自然划分分段;EXAMPLE;为什么要进行数据概化?;2025/4/30;2025/4/30;连续属性的离散化就是将数值属性的值域划分为若干子区间,每个区间对应一个离散值。
离散化方法依据不同的标准主要有以下几种划分:有监督和无监督、动态和静态、全局和局部、自顶向下和自底向上等。
;2025/4/30;2、动态和静态离散化;2025/4/30;4、局部和全局离散化;2025/4/30;2025/4/30;2025/4/30;2025/4/30;我们现在以花萼长(sepallengthincm)属性为例,来进行连续型值属性的离散化。
具体步骤为如下:
(1)对要离散化的属性的连续值排序。
(2)根据一定的规则产生候选断点集,构造初始区间。
;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;;2025/4/30;2025/4/30;;贪心算法;例如:假设有四种硬币,它们的面值分别为二角五分、一角、五分和一分。现在要找给某顾客六角三分钱。
这时,我们会不假思索地拿出2个二角五分的硬币,1个一角的硬币和3个一分的硬币交给顾客。这种找硬币方法与其他的找法相比,所拿出的硬币个数是最少的。
这里,我们下意识地使用了这样的找硬币算法:首先选出一个面值不超过六角三分的最大硬币,即二角五分;然后从六角三分中减去二角五分,剩下三角八分;再选出一个面值不超过三角八分的最大硬币,即又一个二角五分,如此一直做下去。
这个找硬币的方法实际上就是贪心算法。顾名思义,贪心算法总是作出在当前看来是最好的选择。也就是说贪心算法并不从整体最优上加以考虑,它所作出的选择只是在某种意义上的局部最优选择。;但是:
如果???币的面值改为一分、五分和一角一分3种,而要找给顾客的是一角五分钱。还用贪心算法,我们将找给顾客1个一角一分的硬币和4个一分的硬币。然而3个五分的硬币显然是最好的找法。
显然贪心算法不是对所有问题都能得到整体最优解,但对范围相当广的许多问题它能产生整体最优解。如,图的单源最短路径问题。
在一些情况下,即使贪心算法不能得到整体最优解,但其最终结果却是最优解的很好的近似解。;基于熵的离散化方法是通过贪心算法搜寻给定数据区间内的具有熵值最小的数据点作为断点。
该方法将区间内的每一个数值作为候选断点,计算其熵值,然后从中选出具有最小熵值的数据点作为断点,将区间一分为二,然后再对得到的区间递归地应用以上方法进行离散化。
停止准则是当得到的每个区间中的类标签都是一致时,即停止离散化过程;或者达到某个停止标准时,停止。;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2025/4/30;2、因子分析;2025/4/30;主成份分析和因子分析的优点;3、聚类分析——K均值聚类分析;2025/4/30;2025/4/30;2025/4/30;2025/4/30;;2025/4/30;(3)逐步向前选择和逐步向后删除相结合
向前选择和向后删除结合的方法则是将向前选择和向后删除方法结合在一起,每一步选择一个最好的属性,并在其剩余的属性中删除掉一个最坏的属性。
这两种方法也存在着与逐步向前选择方法相同的缺点。;2025/4/30;2025/4/30;2025/4/30;3、评价函数的要求;2025/4/30;2025/4/30;2025/4/30