数据清洗的方法有哪些(数据清洗的具体方法)
导语:数据清洗:如何让数据更“干净”?
市场调研进入中国已有近40年历史,已成为企业开展研发、运营活动前的必备商业活动,企业在市场调研上的投入对销售增长有着举足轻重的影响。
以往,市场调研主要是线下执行,通过一线访问员进行数据质量监督,并全程指导被访者,确保被访者对题目与选项的理解,以保证数据的准确度。
随着大数据时代的不断发展,市场调研也顺应时代不断完善和强大,部分访问逐渐转战线上。线上访问一方面缩短了时间周期,一方面也减少了线下的人力和差旅开销。但随之而来的弊端是:需要投入更大的成本去进行数据清洗,确保数据是“干净”的。
无论是线下模式还是线上模式,都会有用户因为这样那样的原因,填写不符合要求的问卷,导致回收的数据不准确。而数据清洗,正是将这些“脏”的东西洗掉,以保证数据的真实、准确,从而分析出有效的结论。
为什么数据清洗特别重要?
数据清洗(Data cleaning)是对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗是数据预处理的第一步,也是保证后续结果正确的重要一环。若不能保证数据的正确性,我们可能得到错误的结果,比如因小数点的错误而造成数据放大十倍,百倍甚至更大等。因此清洗后的数据质量在很大程度上决定了后续数据分析的结果准确性。
清理数据的5个步骤
1. 删除超出时间范围的数据。
根据问卷题目数量、试访时长、前50个样本平均时长等来判断,需要剔除少于最低填答时间和填答时间过长的样本。 例如,内部试访时间为20分钟,出现填写时长为3分钟的样本,则删除。
2. 删除逻辑矛盾的样本。
例如,个人月收入5000元,家庭月收入1000元,答案自相矛盾,删除。
3. 答卷IP大量相同,必须引起重视。
但是,相同的IP地址并不意味着必须重复回答问题。 例如,同一办公室的回答者通常使用相同的网络和相同的外部网络IP。因此,有必要结合其他问题的答案和研究的实际情况进行综合判断。
4. 删除量表题同分较多的样本。
例如,30道评分题中70%都是相同分数,意味着有21题都选择同样一个答案,一般就算无效样本。70%是常见的处理方式,也可以根据实际情况设置60%、80%等标准。
下图示例,横向Q4-Q9题全选相同的分数视为乱答,删除。
5. 删除数据不完整的样本。
例如调查人口信息,发现“年龄”这项缺失了40%,则需要把该项指标删除。因为当一个变量缺失的数据过多,即便是补上了,也有可能与实际情况相差甚远,因此这些数据已经没有价值了。
图示为某项目剔除无效样本的清洗步骤:
数据清洗的必备操作
在任何数据清洗工作中,牢记以下几点:
1. 尽量以详细的方法考虑数据,既要商讨由谁来分析,也要商讨谁来使用,从而得出的结论。
2. 增加对数据库的保护和维护以保证系统使用的数据更加干净。
3. 采取在出现问题前可以提示甚至解决错误数据的解决方案。
4. 对于大规模数据集,要更加严格地限制样本规模,同时缩短准备时间并加快数据清理性能。
5. 全程抽查,避免出现任何错误数据被复制的情况。
了解如何进行数据清洗非常重要,它是数据科学的重要组成部分。因此,我们之后在数据清洗的过程当中,可以使用上面的方法,以便更快地提高我们工作和分析的效率,使数据更加“干净”!
免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小涵创作整理编辑!