搜索
写经验 领红包
 > 运动

出现异常值一般有哪些方法进行处理(异常值的处理如何说明)

导语:白话统计阅读打卡:发现异常值该怎么处理?

出现异常值一般有哪些方法进行处理(异常值的处理 如何说明)

首先要明确异常值的几个特征,它至少包含以下三个情形:

1.离群值

离群值是指从因变量y的角度来看属于异常的值。

2.高杠杆值

高杠杆值是指从自变量x的角度来看属于异常的值。

3.强影响值

是指对模型影响较大的值,也就是删除该值,则会导致模型发生很大变化。

如系数值改变较大。

一般情况下利用散点图可以直观地发现比较明显的异常值,但是也有一些指标可以利用。

1.提高高杠杆的杠杆值hi

2.判断离群值的学生化残差

残差反映了实际值与估计值的差异情况,可以较好地反映模型的拟合效果。

通过校正得到标准化的残差,即为学生化残差,大于2或3时可以认为是离群值。

3.判断强影响值的Cook距离,DEFEATS和DFFITS

4.根据Cook距离计算公式得到,距离越大,越有可能是强影响点,而DFFITS与其相类似,只不过是计算公式略有差异,而DEFEATS是一个更具有实际意义的指标,它反映了删除某一观测后各个变量系数的变化值,如果该值较大,则说明删除的观测对系数的影响很大,提示是一个强影响点。

当发现了异常点该怎么处理呢,并不是简单的删除,因为这会导致你错过一些真正的规律。

首先你需要考虑是什么原因导致的异常,再考虑如何进行处理。

如果是录入错误或实验记录错误等,这很容易处理。

如果不是录入错误,而是确实存在这样的异常值,则需要根据情形来定:

首先,如果这个异常值不代表一种规律性,而是极其偶然的现象,或者说你并不想研究这种偶然现象,则可以将其删除。

其次,如果异常值存在且代表了一种真实存在的现象,那么就不能随便删除,而是需要拟合模型,研究其规律。

实际中,来自社会学和医学的数据往往不像来自实验室的异常值那样单调地递增或递减,无法通过变量变换的方式来拟合,此时可以用稳健回归的方法。

稳健在统计学中的意思是数据的微小变动对其估计值没有太大影响 ,如果不受异常值的影响,或删除某一观测后结果变化不大等等。如中位数就是一个比均数更为稳健的指标。

稳健回归的目的是减弱异常点对模型的影响,其手段就是通过对不同数据点赋予不同的权重,给予异常值很低的权重,降低其对模型的影响。

首先需要了解两个重要概念,一是崩溃点,就是存在多少异常点时仍可保持模型稳健,如崩溃点为20%时,说明即使有20%的异常点,但仍旧可以保持模型的稳健,但超过20%时模型可能就不是稳健的了,崩溃点越高,表明估计的方法越稳健。二是相对效率,即相对最小二乘法的效率,效率越高,说明估计结果越可靠,而一种好的稳健估计技术应当同时具备较高的崩溃点和较高的相对效率。以下是几个稳健回归的技术:

1.L估计

L估计的方法主要有:最小绝对值回归、最小二乘中位数回归、最小截尾二乘回归,这几个方法都是利用最小二乘法的优势,即实际值与估计值差值的平方,而最小绝对值回归用的是实际值与估计值差值的绝对值,因此受异常值的影响相对较小,最小二乘中位数回归用中位数替换最小二乘法中的均数,显然中位数更为稳健,最小截尾二乘回归用了截尾均值,去掉了一定比例的异常值,肯定也更为稳健。

2.M估计

回归的M估计的思路是将残差的某一函数最小化,而最小二乘法就是其特例。

M估计尽管相对效率较高,但是崩溃点为0,因此不能较好地解决异常值问题。

3.S估计

为了解决M估计崩溃点很低的问题提出了S估计,其思路是使残差的离散性最小,所以,最小二乘法也可以看作其特例,尽管S估计可以使崩溃点提高到50,但是相对效率较低 ,因此仍不是一个很高的选择。

4.MM估计

在计算过程中结合了M和S估计,它先用S估计保证具有一定的崩溃点,然后在不断迭代过程中提高估计效率,MM估计具有50%的崩溃点和大约95%的小相对效率,因此是实际中应用较多的方法。

Ref:《白话统计》冯国双著

本文内容由快快网络小婷整理编辑!