搜索
写经验 领红包
 > 娱乐

数据的缺失值处理说明什么问题(数据的缺失值是如何造成的)

导语:数据的缺失值处理说明

缺失值说明

缺失值产生的原因

缺失值处理

缺失值说明

缺失数据是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。缺失数据的处理在数据分析中属于预处理,数据在收集过程中的不完整、不一致等情况,会影响数据分析的质量和结果的稳健性,所以对原始数据的预处理也非常重要。

缺失值产生的原因

缺失数据产生的原因有很多,不同的研究领域各不相同,但是大多分主观因素和客观因素,客观因素比如机器故障,数据储存失败等;主观则是由于人为因素,比如调查文问卷时,问题无效,或者被调查者拒绝回答等。

缺失值处理

数据缺失的现象普遍存在,解决统计调查中的缺失值问题,是提高数据质量的重要一步,利用SPSSAU进行对缺失值的处理,缺失值处理大致可以分成以下几类:

(1)删除数据(处理成null)

利用SPSSAU中数据处理的异常值处理可以将缺失数据设置为null。如果这些缺失数目占的比例不是很大,那么可以考虑直接删去,如果缺失数据占比较大,不建议此处理,可能会对最后的结果造成严重的影响。

(2)填补数据

如果异常值非常多时,则可能需要进行填补设置,SPSSAU共提供平均值,中位数,众数、随机数、数字0和自定义数字共六种填补方式。建议使用平均值填补方式。

(3)插值法

插值法的思想是用最可能的值来插补缺失值要比删除不完全样本或变量丢失的信息少。SPSSAU提供线性插值,该点线性趋势插值。

操作:

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小春创作整理编辑!