搜索
写经验 领红包

数据挖掘的标准流程(数据挖掘6个基本流程)

导语:数据挖掘及数据挖掘的流程体系:搭建数据分析体系75篇

什么是数据挖掘?

使用算法建立业务模型,导入训练数据对模型进行训练,成熟的业务模型可以用于该业务场景下的数据分析策略的实现,对业务作出指导。

数据挖掘的流程体系

(1)业务需求

提取确定特征变量。

(2)数据清洗

数据的归一化处理,无量纲化处理,异常和缺失值的处理也是数据清洗的范畴。

做好数据清洗和归一化、无量纲处理、异常和缺失值处理。

以上统一称为数据清洗,接下来就是将特征向量导入模型进行计算。

(3)算法原理

使用工具包是可以的,但是要理解算法的原理。

更合理的使用算法库并根据具体业务实现和优化算法。

(4)工具更要熟练使用

使用算法,运行算法的话,对Spark、R、Mahout 、python等工具的使用必然是基础。

数据挖掘的流程体系

1,掌握业务

根据业务需求,向运营人员了解业务背景。

根据对业务的理解,初步确定要提取使用的特征变量,观察数据分布;

2,数据处理

观察数据,并对异常值和缺失值进行处理。

结合数据的分布情况,进行适当的无量纲化处理。

对数据做一定程度的降维处理。

3,算法建模

根据业务场景进行建模。

比如对用户群体进行细分,确定业务模型。

选择模式要使用的算法,如朴素贝叶斯分类算法等。

4,模型优化

需要深入了解朴素贝叶斯算法原理。

算法的优点和缺点,算法的优化方法,如取对数、加平滑曲线等。

参考上篇文章的分析具体的二分类业务案例就可以清晰的知道数据挖掘二分类业务的分析实现、数据挖掘的流程。

本文内容由小馨整理编辑!