搜索
写经验 领红包

excel数据离散化处理(数据离散化的方法)

导语:Excel数据分析——数据离散化

首先解释下什么叫离散化

一般来说,数据分析过程中会用到的数据大概可以分成两类,连续的,或者离散的

这两类有什么区别呢?一般来说,连续数据指的是取值范围内可以是任意一个数值,包括后面有小数点也OK的那种数据,而离散数据一般是用来表示分类或次序,任意两个取值间不方便再随便插数值进去的序列,比如性别男或女(第三性别的请单独列为一类,别强行插队)

离散化,指的就是原本是连续的数据,但现在我们想按照分类的方式来计算,所以要把它按一定规则分组来表示

举个例子,比如我们有下面这样一组数据,共175个数,取值比较随机而且基本都带小数点:

额,头尾两截取得不太凑巧,还是列一下数据大致特征好了:

可以看到,这是一组分布在-289到122之间的数据,如果我们要把它离散化成几个组,那该怎么分呢?

1) 比较简单的一种方式是等宽离散化,意思就是每个组的数据范围都分成一样大,在这里我们假设分成10个组,那么每组的宽度就是:

(122-(-289))/10=41.1

分组后的结果如下:

画成直方图的分布情况:

这种分组方式虽然方便,但是缺点也很明显,那就是当数据的分布不太均匀的时候,有的分组中包含的数据只有一两个,甚至再差点的情况可能会没有数据,这样的话就会有好些分组都没有意义,也没法做后续的分析,所以要考虑下用另一种方式

2) 等深离散化:这个方式分组出来的结果宽度是不齐的,但是基本会保证每组包含差不多数量的数据

假设还是分10个组,175个数据相当于每组应该包含175/10约18个数据,这里为了操作方便,我用了Excel数据分析工具里的排序和占比(不确定翻译的准不,不准的话请看图)

输出结果如下:

按照我们需要的每18个一组,分出来大概是这样:

画个直方图再看下:

嗯,这个分法看起来勉强可以,但好像还是有点别扭,要不,咱再改改?

3) 人工调整分组:根据上面等深分组的情况可以看到,其实除了两端数据较少导致组宽度明显偏大,其实大多数组宽度还算是比较均匀的,基本在15-20左右,排除两头的异常后,中间组别3到9的宽度平均在19.45,所以这里我尝试改成以下分法:

按人工调整的结果再画一下直方图看看效果:

组6 和组7包含的数据个数少了些,咱再合并一下吧

最终出来的结果如下:

这样看着还行不?

---------------------------------End------------------------------

免责声明:本站部份内容由优秀作者和原创用户编辑投稿,本站仅提供存储服务,不拥有所有权,不承担法律责任。若涉嫌侵权/违法的,请反馈,一经查实立刻删除内容。本文内容由快快网络小梓创作整理编辑!