搜索
写经验 领红包
 > 家居

数据挖掘你必须知道的32个经典案例(数据挖掘介绍)

导语:数据产品经理必修课(47):数据挖掘之Kmeans

上面的逻辑回归,贝叶斯方法以及决策树方法虽然各不相同,但是殊途同归,大家都是奔着一个目标去,那就是把事物进行分类。分类两个字看似简单,其实奥妙无穷。设想一下,我们在说分类的时候,我们会怎么说?“这个东西到底应该分到哪一类呢?”注意,这里说的哪一类蕴含了一个既定的事实,那就是这个类别已经存在了,而每个类别的存在都是以这个类别存在一些实际的例子或者样本作为前提的。就好像我们在说,这个人是哪个国家的,我们就是在对这个人进行分类,而国家是已经存在的。国家的存在又要以这个国家里有一些能够代表这个国家的人为前提的,一个空城显然不能称之为国家。

与之相匹配的还有另外一个概念,称之为聚类。聚类和分类虽然仅仅一字之差,但是却截然不同。对比分类的定义,我们一一来看。首先,聚类不一定需要这个类别已经存在。当我们谈论聚类的时候,我们时常会说“这个事物和哪些事物比较相似呢?”,这个过程中实际上是在找相似事物的过程。而相似的事物只有聚集在一起的时候,才能成为一个类。在此之前,其实并没有规定好这些人聚在一起是什么。这就好比社会上的社团一样,最开始发展的时候并没有被承认(就好比没有一个正式的类名称),而随着发展壮大,到了一定规模,就有了自己的名称。而聚集的过程其实就是聚类(聚而成类)。其次,正如刚才所说,分类中的类已经有了代表成员,而聚类正式在招揽代表成员。因而聚类与分类截然不同,我们找不到这个某个类特定的标准,它随时可能会变换,因为这个类中的成员在不停的增加,不停的变动,因而能够代表这个类的成员也就不固定,故而我们说聚成的这个类没有一个特定的严格标准。

从上面的论述来看,聚类似乎是分类的前序过程,没有聚在一起的类哪里能够形成接下来供我们判别的类呢?另一方面,分类又是聚类的核心诉求,聚类的过程实际上是在看某物究竟和哪一拨事物走的更近,因而其中也蕴含着分类的感觉。这种相生的思想也奠定了在未来他们之间的模糊概念,也是辩证法的体现所在。

回到我们这篇的主题,Kmeans来说,我们又来具体来谈一个聚类方法。接下来的几节会分别介绍几种不同的聚类方法。不妨让我们从Kmeans这个最简单的方法入手。先从名字谈起吧,Kmeans由两部分构成,一部分称之为K,另外一部分称之为means。根据梅林韦氏词典,mean的解释中有一项是occupying a middle position(意思为占据中间的位置),翻译过来就是平均数的意思。而K则表示了最终需要聚成类别的数量,K可以取1,2,3之类的自然整数。通过名字我们就可以很轻松的知道Kmeans的本意就是先随便找K个类别的代表人物出来,不妨认为这K个人创立了K个组织,不过这个时候组织实力比较薄弱。对于一个新人来说,看看他距离这K个组织领袖谁更加契合(想近似),于是就认为这个新人应该加入某个组织。当新人加入后,重新在组织内选择一个领袖,这样周而复始的进行下去。直到所有的人都找到了自己的组织。

Kmeans的本质实际上是物理学中的质心概念,我们在一个组织中选择领袖,正如是找到这个组织的核心一样,而对于Kmeans聚类来说,它不过是把物理学上的概念抽象了之后进行了算法化,这样就形成了最早期的聚类算法。在实际生活中,只要我们善于观察,我们就可以把一个领域的知识迁移到另外一个领域进行创新,这种跨界的创新在当下显得尤为珍贵和必须,这也是跨学科的意义,也是促使我们进行博学的动力。

本文内容由小媛整理编辑!