搜索
写经验 领红包

数据分析数据预处理(如何进行数据预处理分析)

导语:详细数据分析步骤(二)——数据预处理(1)

数据分析 数据预处理(如何进行数据预处理分析)

上一篇文章讲述了如何获取数据,那么在获得数据之后,在使用之前需要进行数据预处理。数据预处理没有标准的流程,通常针对不同的任务和数据集属性的不同而不同。

一.数据的形态分析

1、数据的不平衡性

检查每组数据的多少是否平衡。若过采样,要适当增加少的样本数据;若欠采样,要保留少的样本,适当减少多的样本数据。

2、数据的完整性

检查数据是冗余还是缺漏。由于现实世界中,获取信息和数据的过程中,会存在各类的原因导致数据丢失和空缺。针对这些缺失值的处理方法,主要是基于变量的分布特性和变量的重要性(信息量和预测能力)采用不同的方法。主要分为以下几种:

直接使用含有缺失值的特征删除变量:若变量的缺失率较高(大于80%),覆盖率较低,且重要性较低,可以直接将变量删除。定值填充:工程中常见用-9999进行替代统计量填充:若缺失率较低(小于95%)且重要性较低,则根据数据分布的情况进行填充。对于数据符合均匀分布,用该变量的均值填补缺失,对于数据存在倾斜分布的情况,采用中位数进行填补。插值法填充:包括随机插值,多重差补法,热平台插补,拉格朗日插值,牛顿插值等模型填充:使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。哑变量填充:若变量是离散型,且不同值较少,可转换成哑变量,例如性别SEX变量,存在male,fameal,NA三个不同的值,可将该列转换成 IS_SEX_MALE, IS_SEX_FEMALE, IS_SEX_NA。若某个变量存在十几个不同的值,可根据每个值的频数,将频数较小的值归为一类&39;,降低维度。此做法可最大化保留变量的信息。

3.数据的特征

辨别出数据间的共性(普遍规律,用于分类)、差异性(不同的规律,用于排序)

4.数据的异常值

需与数据的缺失区分开,异常值是指样本中的个别值,其数值明显偏离其余的观测值。

异常值检测

常用辨别异常值的方法是简单统计分析、3σ原则、箱型图法

(1)简单统计分析:最常用的统计量是最大值和最小值,用来判断这个变量的取值是否超出合理的范围。

(2)3σ原则:又称为拉依达准则,该准则具体来说,就是先假设一组检测数据只含有随机误差,对原始数据进行计算处理得到标准差,然后按一定的概率确定一个区间,认为误差超过这个区间的就属于异常值。

(3)箱线图:箱线图是通过数据集的四分位数形成的图形化描述,是非常简单且有效的可视化离群点的一种方法。

推荐阅读:

【python 机器学习】正态分布检验以及异常值处理3σ原则_东华果汁哥的博客-CSDN博客_正态分布异常值判断

用3-sigma原则处理DataFrame中的异常值_xjtuwfj的博客-CSDN博客

数据分析:异常值检测--箱型图_么心learning的博客-CSDN博客_箱型图判断异常值

异常值处理

1.删除:直接将含有异常值的记录删除,通常有两种策略:整条删除和成对删除。这种方法最简单简单易行,但缺点也不容忽视,一是在观测值很少的情况下,这种删除操作会造成样本量不足;二是,直接删除、可能会对变量的原有分布造成影响,从而导致统计模型不稳定。

2.视为缺失值:利用处理缺失值的方法来处理。这一方法的好处是能够利用现有变量的信息,来填补异常值。需要注意的是,将该异常值作为缺失值处理,需要根据该异常值(缺失值)的特点来进行,针对该异常值(缺失值)是完全随机缺失、随机缺失还是非随机缺失的不同情况进行不同处理。

3.平均值修正:如果数据的样本量很小的话,也可用前后两个观测值的平均值来修正该异常值。这其实是一种比较折中的方法,大部分的参数方法是针对均值来建模的,用平均值来修正,优点是能克服了丢失样本的缺陷,缺点是丢失了样本“特色”。

4.盖帽法:整行替换数据框里99%以上和1%以下的点,将99%以上的点值=99%的点值;小于1%的点值=1%的点值。

5.分箱法:分箱法通过考察数据的“近邻”来光滑有序数据的值。有序值分布到一些桶或箱中。包括等深分箱:每个分箱中的样本量一致;等宽分箱:每个分箱中的取值范围一致。

6.回归插补:发现两个相关的变量之间的变化模式,通过使数据适合一个函数来平滑数据。若是变量之间存在依赖关系,也就是y=f(x),那么就可以设法求出依赖关系f,再根据x来预测y,这也是回归问题的实质。实际问题中更常为见的假设是p(y)=N(f(x)),N为正态分布。假设y是观测值并且存在噪声数据,根据我们求出的x和y之间的依赖关系,再根据x来更新y的值,这样就能去除其中的随机噪声,这就是回归去噪的原理 。

7.多重插补:多重插补的处理有两个要点:先删除Y变量的缺失值然后插补

1)被解释变量有缺失值的观测不能填补,只能删除,不能自己乱补;

2)只对放入模型的解释变量进行插补。

8.不处理:根据该异常值的性质特点,使用更加稳健模型来修饰,然后直接在该数据集上进行数据挖掘。

5.数据的分布特征

(1)集中趋势:均值、众数、中位数等

(2)离散程度:方差、标准差等

(3)分布形状:偏度、峰度

推荐阅读:

数据分析|数据分布特征的描述_echoy_189的博客-CSDN博客

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小萱创作整理编辑!